CN111104552B

CN111104552B - 一种基于电影结构化信息和简介预测电影评分类别的方法

Info

Publication number: CN111104552B
Application number: CN201911347391.3A
Authority: CN
Inventors: 詹珂; 杜歆
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2023-06-06
Anticipated expiration: 2039-12-24
Also published as: CN111104552A

Abstract

本发明公开了一种基于电影结构化信息和简介预测电影评分类别的方法。该方法首先对电影的结构化信息和电影的简介进行清洗和预处理，构建电影结构化信息的“电影实体‑关系‑信息实体”三元组以及电影简介的文本数据集。利用电影结构化信息生成的三元组训练电影实体向量，利用电影简介的文本数据训练出文档向量。将电影实体向量和文档向量拼接组成的电影特征向量输入电影对应的评分训练分类模型，预测电影评分的类别。本发明通过结合电影自身信息构建分类模型，没有涉及用户相关的评价和情感偏好，提升了预测电影评分分类的准确率，可以有效解决进行新片评分预测的“冷启动”问题。

Description

一种基于电影结构化信息和简介预测电影评分类别的方法

技术领域

本发明涉及一种基于电影结构化信息和简介预测电影评分类别的方法。具体来说，就是给定了电影的结构化信息(如电影导演，演员，类别等)和电影简介，通过生成电影实体向量和文档向量从而预测电影评分类别的方法。

背景技术

电影评分是用户在观看电影之后对于电影总体评价的一个量化。一方面，电影评分是衡量一部电影质量的重要标准。越来越多的人在观影前，都会选择电影评分作为观看与否的一个标准。另一方面，电影发行商在追求电影票房带来的收益的同时，也越来越注重电影的口碑。仅仅依靠电影的宣传噱头获得的前期票房收益很难持久，随着信息传递速率的飞速增长，在如今电影市场下，市场的反馈决定了最终的电影票房，而电影评分就是一种直观的市场反馈。电影评分的预测一般依赖电影本身的特征和评价用户群体的特性，是电影在市场预期评价的一种度量，能够在观影前给予用户较准确的心理预期，也能够帮助资方在投资电影和市场宣传方面提供较准确的市场前瞻反馈。

目前电影评分预测主流都是依靠用户-电影交互信息以及电影本身特性，采用协同过滤等方法挖掘出用户深层偏好以及用户类群的共同偏好。一般挖掘用户对于电影的显式评价如评分、评论和隐式评价如点击、观看记录中蕴含的用户-电影关系。在工程应用情况，获得大量用户对于电影的反馈数据比较困难，同时还存在新电影的冷启动问题。实际上，电影发行之际就存在电影的结构化信息(导演、演员、类型、语言等)和电影的简介，信息获取难度较小。同时电影的某些结构化信息对于电影评分有着重要的影响，比如“xxx演员是电影品质的保证”，“xxx导演专门导烂片”，“国产惊悚片普遍评价不高”。而电影从某种意义来说就是讲述一个故事，电影的简介就是电影的故事性的一个“缩影”，因此电影简介对于“故事”的讲述好坏也存在一定反映。

发明内容

本发明是针对现有方法的不足，提出了一种基于电影结构化信息和简介预测电影评分类别的方法。该方法依靠电影的结构化信息和简介生成电影实体向量和文档向量，再依靠神经网络挖掘向量特征之间的深层关系从而做到较好的评分分类预测。

本发明的目的是通过以下技术方案来实现的：一种基于电影结构化信息和简介预测电影评分类别的方法，该方法包含以下步骤：

(1)对电影的结构化信息和简介进行清洗和预处理。具体包括以下子步骤：

(1.1)删除电影简介过少、电影简介异常或者缺失电影简介的电影样本；

(1.2)删除电影简介中的特殊符号等非文本信息；

(1.3)将结构化信息中演员、导演等人名加入词库，对电影简介进行分词处理，并删除停用词；

(1.4)删除缺失类型、语言、导演、演员、编剧等结构化信息的电影样本，得到清洗过的结构化信息；

(1.5)将清洗过的结构化信息生成“电影实体-关系-信息实体”的三元组，所述电影实体为电影名称，信息实体包括电影的类型、语言、导演、演员、编剧等。

(2)使用电影结构化信息生成的三元组训练生成电影实体向量。具体包括以下子步骤：

(2.1)每个电影实体分配唯一的电影实体向量f，每个关系分配唯一的关系向量r，每个信息实体分配唯一的信息实体向量i；

(2.2)设置电影实体向量、关系向量和信息实体向量的维度，训练轮数，批量大小等参数，使用“电影实体-关系-信息实体”的三元组作为正样本，同时通过结构化信息自动生成负样本采样，将正样本和负样本同时输入定义实体向量生成模型，训练生成电影实体向量。

(3)使用电影简介训练生成文档向量。具体包括以下子步骤：

(3.1)每条电影简介分配唯一的文档ID，根据文档ID生成文档向量，每个单词分配唯一的单词ID，根据单词ID生成单词向量；

(3.2)设置doc2vec文档向量模型的窗口大小，负样本数等参数，使用电影的文档向量、单词向量作为doc2vec文档向量模型的输入，训练生成文档向量。

(4)使用训练生成的电影实体向量和文档向量训练电影评分预测分类模型，使用训练好的电影评分预测分类模型预测新电影的评分类别。具体包括以下子步骤：

(4.1)将训练生成的电影实体向量和文档向量依次拼接，作为电影评分预测分类模型输入，将电影的评分分为低、中、高三类作为对应的类别训练出评分预测分类模型；

(4.2)新电影的评分分类预测，通过步骤1的方法生成“实体-关系-实体”的三元组，再经步骤2，步骤3的方法生成电影实体向量和文档向量，然后将拼接好的向量输入训练好的评分预测分类模型输出新电影的评分类别。

进一步地，所述定义实体向量生成模型通过以下方法训练：

(a)采用d(f,r,i)用来描述“电影实体-关系-信息实体”的距离，即

其中，M_f是将电影实体向量转换到关系向量空间的转换矩阵，M_i是将电影信息向量转换到关系向量空间的转换矩阵。

(b)通过当损失函数的波动小于0.1，完成对定义实体向量生成模型的训练；其中，损失函数为：loss＝-log(δ(d(f,r,i)_neg-d(f,r,i)_pos)) (2)

d(f,r,i)_neg表示负样本的距离，d(f,r,i)_pos表示正样本的距离，δ表示非线性激活函数。

进一步地，所述电影评分预测分类模型通过以下方法训练：

(a)所述电影评分预测分类模型包括：输入层、隐层、输出层，所述输入层由定义实体向量生成模型生成的电影实体向量和doc2vec文档向量模型生成的文档向量组成；所述隐层是五层全连接网络，激活函数采用Relu函数，同时加入Dropout优化；所述输出层使用Softmax方法输出类别；

(b)计算电影评分预测分类模型输出的预测值与真值的误差，利用误差反向传播的方法更新隐层的参数；

(c)重复步骤(a)-(b)，直到两轮误差的绝对误差小于0.1时，完成对电影评分预测分类模型的训练。

进一步地，电影的评分低于6分的为低类别，6-7分的为中类别，高于7分的为高类别。与现有技术相比，本发明的有益效果是：(1)通过利用知识图谱的相关改进方法训练电影结构化信息生成电影实体向量，利用doc2vec训练电影简介生成文档向量，能够很好地表征电影特征，提升后续评分分类的准确率；(2)利用神经网络结合电影实体向量和文档向量，深层挖掘各特征与电影评分的关系，提升了后续评分分类的准确率。

附图说明

图1为本发明基于电影结构化信息和简介预测电影评分类别的流程图；

图2为电影实体向量生成的流程图；

图3为文档向量生成的流程图；

图4为评分分类预测模型的结构示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细描述，本发明的目的和效果将变得更加明显。

图1给出了本发明方法的流程图，本发明将基于电影结构化信息和简介预测电影评分类别的方法分为四个步骤，即数据预处理、训练电影实体向量、训练电影文档向量、预测电影评分类别。

如图1所示，在步骤101中，数据预处理的具体步骤如下：

(1.1)删除电影简介过少、电影简介异常或者缺失电影简介的电影样本；由于部分电影的简介短小，或者部分电影简介出现不相干的内容，或者部分电影缺失相应的简介，不能体现电影的故事性，无法用于训练模型，因此删除相关电影样本。

(1.2)删除电影简介中的特殊符号等非文本信息；电影简介中有部分可能是编辑错误、编码转换错误信息等特殊符号，这些不包含文本信息，使用正则表达式匹配删除特殊符号。

(1.3)将结构化信息中演员、导演等人名加入词库，对电影简介进行分词处理，分词是自然语言处理中最基本的步骤。中文单词的分词有很多成熟的方案可以使用，本发明采用的分词方法为结巴分词；同时将结构化信息中的导演、编剧、演员等人名加入词库，能够大大提高对于人名分词的准确性。随后删除停用词，在中文语境中，有很多词与目的无关，只是起语气助词、功能词等作用，没有实际用处，利用中文停用词表检索并删除相关停用词，可以有效提高后续向量表达的准确性。

(1.4)删除缺失类型、语言、导演、演员、编剧等结构化信息的电影样本，得到清洗过的结构化信息；一部电影若结构化信息较少，则缺少足够的特征表达，难以进行训练，因此删除结构化信息少于5类的电影。

如图1所示，在步骤102中，使用电影结构化信息生成的三元组训练生成电影实体向量。具体包括以下子步骤：

(2.2)删除信息实体出现频率小于3次的三元组数据，因为出现频率较少的“电影实体-关系-信息实体”三元组在训练中所关联的电影实体或信息实体较少，不能充分体现与电影实体或信息实体的关系特征；

(2.3)设置电影实体向量、关系向量和信息实体向量的维度，训练轮数，批量大小等参数，使用“电影实体-关系-信息实体”的三元组作为正样本，同时通过结构化信息自动生成负样本采样，将正样本和负样本同时输入定义实体向量生成模型，训练生成电影实体向量。定义实体向量生成模型的训练流程如图2所示：

如图1所示，在步骤103中，使用电影简介训练生成文档向量。具体包括以下子步骤：

(3.2)设置doc2vec文档向量模型的窗口大小，负样本数等参数，使用电影的文档向量、单词向量作为doc2vec文档向量模型的输入，训练生成文档向量。电影的文档向量训练流程如图3所示。

如图1所示，在步骤104中，使用训练生成的电影实体向量和文档向量训练电影评分预测分类模型，使用训练好的电影评分预测分类模型预测新电影的评分类别。具体包括以下子步骤：

(4.1)将训练生成的电影实体向量和文档向量依次拼接，作为电影评分预测分类模型输入，将电影的评分分为低、中、高三类作为对应的类别训练出评分预测分类模型；将评分低于6分的电影划分到评分低分类，评分高于6分，低于7分的电影划分到评分中分类，评分高于7分的电影划分到评分高分类。

电影评分预测分类模型的结构如图4所示：

(a)所述电影评分预测分类模型包括：输入层、隐层、输出层，所述输入层由定义实体向量生成模型生成的电影实体向量和doc2vec文档向量模型生成的文档向量组成；所述隐层是五层全连接网络，激活函数采用Relu函数，同时加入Dropout优化，隐层的全连接层结合非线性激活函数和dropout优化方法可以挖掘实体向量和文档向量的潜在特征的非线性关系，近一步提高分类的准确率。所述输出层使用Softmax方法估计预测评分属于各个类别的概率，即

其中，x_i表示这是第i个样本，y_j表示隐层的输出，s_i表示第i个样本的评分类别。

将一部未训练过的电影通过上述方法生成电影实体向量和文档向量，然后将拼接好的向量输入训练好的评分预测分类模型输出新电影的评分类别。将预测的评分类别与真实评分类别相比较计算预测的准确率和混淆矩阵，最终分类的准确率为62.1％，F1-micro值为0.638。在输入中不包含用户的评价下，对于电影评分类别的预测取得了良好的效果，能够较为准确地解决新电影冷启动评价问题。

F1-micro＝2*(P*R)/P+R (4)

其中，P是总体的精确率，R是总体的召回率，精确率指预测为正样本的样本中，正确预测为正样本的概率，召回率指的是在原始样本的正样本中，正确预测为正样本的概率。

以上仅为本发明具体实施方式，不能以此来限定本发明的范围，本技术领域内的一般技术人员根据本创作所作的均等变化，以及本领域内技术人员熟知的改变，都应仍属本发明涵盖的范围。

Claims

1.一种基于电影结构化信息和简介预测电影评分类别的方法，其特征在于，该方法包含以下步骤：

(1)对电影的结构化信息和简介进行清洗和预处理；具体包括以下子步骤：

(1.2)删除电影简介中的特殊符号非文本信息；

(1.3)将结构化信息中演员、导演人名加入词库，对电影简介进行分词处理，并删除停用词；

(1.4)删除缺失类型、语言、导演、演员、编剧结构化信息的电影样本，得到清洗过的结构化信息；

(1.5)将清洗过的结构化信息生成“电影实体-关系-信息实体”的三元组，所述电影实体为电影名称，信息实体包括电影的类型、语言、导演、演员、编剧；

(2)使用电影结构化信息生成的三元组训练生成电影实体向量；具体包括以下子步骤：

(2.2)设置电影实体向量、关系向量和信息实体向量的维度，训练轮数，批量大小参数，使用“电影实体-关系-信息实体”的三元组作为正样本，同时通过结构化信息自动生成负样本采样，将正样本和负样本同时输入定义实体向量生成模型，训练生成电影实体向量；

(3)使用电影简介训练生成文档向量；具体包括以下子步骤：

(3.2)设置doc2vec文档向量模型的窗口大小，负样本数参数，使用电影的文档向量、单词向量作为doc2vec文档向量模型的输入，训练生成文档向量；

(4)使用训练生成的电影实体向量和文档向量训练电影评分预测分类模型，使用训练好的电影评分预测分类模型预测新电影的评分类别；具体包括以下子步骤：

(4.2)新电影的评分分类预测，通过步骤1的方法生成“实体-关系-实体”的三元组，再经步骤2，步骤3的方法生成电影实体向量和文档向量，然后将拼接好的向量输入训练好的评分预测分类模型输出新电影的评分类别；

所述定义实体向量生成模型通过以下方法训练：

其中，M_f是将电影实体向量转换到关系向量空间的转换矩阵，M_i是将电影信息向量转换到关系向量空间的转换矩阵；

(b)通过当损失函数的波动小于0.1，完成对定义实体向量生成模型的训练；其中，损失函数为：loss＝-log(δ(d(f,r,i)_neg-d(f,r,i)_pos))(2)

2.根据权利要求1所述预测电影评分类别的方法，其特征在于，所述电影评分预测分类模型通过以下方法训练：

3.根据权利要求1所述预测电影评分类别的方法，其特征在于，电影的评分低于6分的为低类别，6-7分的为中类别，高于7分的为高类别。