CN106776528A

CN106776528A - 一种信息处理方法及装置

Info

Publication number: CN106776528A
Application number: CN201510800599.1A
Authority: CN
Inventors: 孟繁宇
Original assignee: China Mobile Communications Group Co Ltd
Current assignee: China Mobile Communications Group Co Ltd
Priority date: 2015-11-19
Filing date: 2015-11-19
Publication date: 2017-05-31
Anticipated expiration: 2035-11-19
Also published as: CN106776528B

Abstract

本发明公开了一种信息处理方法及装置，其中，所述方法包括：获取待预测视频的归一化的点击率，其中所述待预测视频为未上线或正在上线的视频；获取针对所述待预测视频的每一评论的评论值，并对所有评论的评论值进行加权求和，得到所述待预测视频的评论值；获取所述待预测视频的属性信息；将所述点击率、评论值和属性信息输入到预设的排片模型，得到从所述排片模型输出的所述待预测视频的排片值；输出所述待预测视频的排片值。

Description

一种信息处理方法及装置

技术领域

本发明涉及电子技术，尤其涉及一种信息处理方法及装置。

背景技术

自2004年以来，中国电影市场进入了高速成长时期。2004年我国电影票房收入15亿，据业内人士估计2015年我们电影票房将达到400亿，由此看来十年左右票房增长近30倍；中国故事片产量由2004年的200部增至2014年的638部。电影银幕数量激增，据EBOT艺恩日票房智库数据显示，2015年上半年(1月1日-6月31日)新增影院600家，新增银幕2449块，平均每日13.5块，全国累计银幕26244块，预计年底将达到28000块，从而进一步缩小和美国的差距(美国约有4万块银幕)，为票房再上一个台阶打下牢固的地基。而2003年，我国的银幕数仅有2296块，增长近十倍。电影“观影人次”由2006年的0.89亿增长到2014年全国观影人次6.134亿。

但是影院和荧幕数的增加并没有带来观影者期望的局面，你是否遇到过这样的尴尬：当你走进电影院，看到售票台的荧幕上密密麻麻地排满了电影，而你想看的影片却只有寥寥几场——不是上午10点，就是晚上11点，有些影院甚至一场没有。而这样的状况在4、5月尤其明显。在好莱坞大片《速7》、《复联2》前后夹击、超级IP电影《何以笙箫默》、《左耳》的左右围攻下，夹缝中求生存的《闯入者》几乎没有生存空间，其上映当日排片率不足1.5％，逼得导演王小帅不得不发公开信，称“这是一场实事先张扬的谋杀案”，并呼吁广大观众“请你挺我！”一时间，“到底是谁在操纵影院排片？”这个只有电影业内人才会关心的话题竟成了普通观众讨论的焦点。所谓排片率其实就是一部电影在影院享有的放映空间，其排片率越高放映场次就越多。排片率就像影片的生命线，很大程度上影响着票房成绩。

目前中国院线排片主要依赖院线经理。一部电影要与观众见面，首先要经过影院经理的评估：安排什么时段的场次、多大容量的影厅等。可以说影院经理的一念之间，掌控着电影首日排片的生杀大权。对于片方和发行方来讲，要让影片打动观众，首先要打动影院经理，因为影院经理也是观众，那么影院经理的判断标准又是什么？作为专业人士，他们在影片上映前会有个基本的预判。这个预判不是去揣测观众是否喜欢、影片口碑是否良好，而是预估有多少观众会为这部影片埋单，愿意买票的人越多越好。简单来说，观众只要肯花钱就行，喜不喜欢那是他们自己的事。而为了完成这个预判，影院经理需要找到更多证据支撑：比如某部影片的提前点映场是否爆满、观众反应怎么样；它的宣传推广攻势是否强大、海报和片花等物料是否足够吸引人；另外就是它与年轻观众是否走得很近。有着多年排片经验的唐秀霞说，一部影片上映前，她经常会去网上搜集大家对它的评论，如果评论够多，不论是骂还是赞，至少说明它关注度高，就要加以重视。而上映第一天之后，通过观影人次就可以更直接准确地看到影片前途和观众反应，影院经理会适时加以调整，人多的加场而人少的减场。

当然，凡事均有例外。即便是经验老到的影院经理们，也难免有看走眼的时候。一手发行过《天地英雄》、《夜宴》、《手机》、《可可西里》等上百部影片的资深发行人耿跃进表示，“其实还是看影片本身，命运在市场手里，在观众手里”。这种仅凭院线经理经验的排片方式并不符合市场化的发展方向，因为现有排片方法过于依赖院线经理的主观判断，参考的因素比较少，这种方法存在着无法客服的缺点：1)，院线经理可能会对影片的市场前景判断存在误差，其对影片的主观感觉也会对影片的排片产生影响，造成一些好影片被埋没，上映的影片上座率低等情况。2)，电影的宣传推广攻势对院线排片的影响很大，大规模的推广可能会增加院线的排片，但是推广程度高低并不能代表电影的好坏以及影迷的好恶。3)，不少电影的排片，都是靠“拼酒”拼出来的。往前倒数10几年，中国的影院还比较稀少，很多发行人员都是拎着拷贝挨家挨户拜访影院经理“求放映”，有时候放映合同直接就是在酒桌上签的，甚至闹过“一万票房一杯酒”的故事。如今互联网时代，数字拷贝可以直接网络传送，省时省力。但是拼酒的风气却并没有过时。2013年底，香港警匪片《风暴》在国内公映前，身为主演、发行人和监制的刘德华就在接受记者采访时坦言，他再也不想做发行了，因为要陪片商和院线老板吃饭、喝酒，实在是太尴尬了。有着同样经历的明星还有黄晓明，今年4月底他投资并主演的电影《何以笙箫默》上映，为了宣传推广这部影片，黄晓明不但亲自跑到多个城市请影院经理吃饭，还要拿着自己的手机与他们“求合影”。目的只有一个，博得影院经理的好感，在同等质量影片竞争中，能多给《何以》排片。4)，其实再往深一步追究，为了获得更高的排片，陪饭、陪酒都是小儿科，甚至连返点、塞红包这种赤裸裸的“贿赂”也早已成为业内常态，尤其在二三四线城市。一些发行方曾经提过一句“返点”的事情，称如果选择与影院“合作”的话，影院会适量增加影片排片，但前提是收取票房返点。据多位院线人士透露，返点现象确实存在，上限基本是票房的3％。以《何以笙箫默》为例，影片最终票房3亿多，按3％返点的话，也要付出上千万的代价，绝对不是一笔小数目。需要说明的是，这个“返点”又分两种情况，一是返给院线或影院，这算是正大光明的“合作”关系；但更多情况是返给影院经理个人，这就属于私下“塞红包”。拿了好处的影院经理会在排片上给予一些比较隐蔽的倾斜。

发明内容

有鉴于此，本发明实施例为解决现有技术中存在的至少一个问题而提供一种信息处理方法及装置，能够解决现有技术中主观排片的低效性和不准确性。

本发明实施例的技术方案是这样实现的：

第一方面，本发明实施例提供一种信息处理方法，所述方法包括：获取待预测视频的归一化的点击率，其中所述待预测视频为未上线或正在上线的视频；

获取针对所述待预测视频的每一评论的评论值，并对所有评论的评论值进行加权求和，得到所述待预测视频的评论值；

获取所述待预测视频的属性信息；

将所述点击率、评论值和属性信息输入到预设的排片模型，得到从所述排片模型输出的所述待预测视频的排片值；

输出所述待预测视频的排片值。

第二方面，本发明实施例提供一种信息处理装置，所述装置包括第一获取单元、第二获取单元、求和单元、第三获取单元、处理单元和输出单元，其中：

所述第一获取单元，用于获取待预测视频的归一化的点击率，其中所述待预测视频为未上线或正在上线的视频；

所述第二获取单元，用于获取针对所述待预测视频的每一评论的评论值；

所述求和单元，用于对所有评论的评论值进行加权求和，得到所述待预测视频的评论值；

所述第三获取单元，用于获取所述待预测视频的属性信息；

所述处理单元，用于将所述点击率、评论值和属性信息输入到预设的排片模型，得到从所述排片模型输出的所述待预测视频的排片值；

所述输出单元，用于输出所述待预测视频的排片值。

本发明实施例提供的一种信息处理方法及装置，其中，获取待预测视频的归一化的点击率，其中所述待预测视频为未上线或正在上线的视频；获取针对所述待预测视频的每一评论的评论值，并对所有评论的评论值进行加权求和，得到所述待预测视频的评论值；获取所述待预测视频的属性信息；将所述点击率、评论值和属性信息输入到预设的排片模型，得到从所述排片模型输出的所述待预测视频的排片值；输出所述待预测视频的排片值；如此，能够解决现有技术中主观排片的低效性和不准确性。

附图说明

图1为本发明实施例一信息处理方法的实现流程示意图；

图2为本发明实施例二信息处理方法的实现流程示意图；

图3-1为本发明实施例种基于用户点击和评价的智能影院排片系统的组成结构示意图；

图3-2为本发明实施例中智能排片方法的流程示意图一；

图3-3为本发明实施例中智能排片方法的流程示意图二；

图3-4为本发明实施例防作弊的实现流程示意图；

图3-5为本发明实施例预测权值的过程示意图；

图4为本发明实施例五信息处理装置的组成结构示意图；

图5为本发明实施例六信息处理装置的组成结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。

实施例一

为了解决现有技术中存在的技术问题，本发明实施例提供一种信息处理方法，从客户端-服务器角度而言，该方法应用于作为服务器的计算设备，该所述计算设备包括笔记本电脑、个人计算机、智能手机等设备，该信息处理方法所实现的功能可以通过计算设备中的处理器调用程序代码来实现，当然程序代码可以保存在计算机存储介质中；可见，该计算设备至少包括处理器和存储介质。

图1为本发明实施例一信息处理方法的组成结构示意图，如图1所示，该方法包括：

步骤S101，获取待预测视频的归一化的点击率，其中所述待预测视频为未上线或正在上线的视频；

这里，所述视频至少包括电影、电视。当本发明实施例提供的方法应用于电影领域时，所述待预测视频即为待上线的电影或待上映的电影。在具体实现的过程中，所述待预测视频可以为电影或电视剧的正片，也可以是片花或者正片的一部分。

这里，本发明实施例提供的方法在服务器端可以以应用程序(APP)的形式实现。在客户端，当用户对待预测视频进行了点击，客户端即将该点击事件发送给服务器，服务器对用户的点击进行计算，生成归一化的点击率。具体地，用户对待预测视频感兴趣时，便会点击该待预测视频，当用户点击了所述待预测视频时，客户端便将该点击事件发送给服务器。用户根据未上映影片的展现产生点击行为，这种点击行为可以理解为用户对于未上映电影的兴趣程度，因此可以通过这种展现到点击的所有用户平均点击转化率作为一维特征来表示影片。

式(1)中：为平均点击转化率；Ctr为点击转化率，其中点击转换率为视频的点击次数与显示次数之比；N表示什么？N表示总用户数，对某部电影都会用一定量的点击和展现求平均值。

为了更好的统一数据和使模型更加准确，在具体实施的过程中可以根据公式(2)对所有即将上映影片的点击转化率进行线性归一化，方式如下：

公式(2)中，表示某部电影的平均点击转化率，Ctr_current表示归一化的点击转化率，Ctr_min表示所有电影中最小的平均点击转换率，Ctr_max表示所有电影中平均点击转换率的最大值，公式(2)的目的是为了归一化，使所有电影平均的点击转化率均匀的分布在0到1之间；

步骤S102，获取所述待预测视频的评论，并分析所述评论，得到所述待预测视频的评论值；

这里，在客户端侧，当用户点击待预测视频后还会写下对该待预测视频的评论，当用户写下评论后，客户端就会将该评论上传至服务器，在具体实现的过程中，所述评论可以为文字、语音等。当评论为语音时，还需要对所述语音进行语音识别和语义分析，得到对应的文字信息。

这里，用户可以直接为视频进行打分，打分即为视频的评论值；用户也可以不打分，那么本发明实施例可以直接利用用户写下的评论，得到用户对影片的评论值。

步骤S103，获取所述待预测视频的属性信息；

这里，所述属性信息至少以下信息中的任一项：视频类别、导演、导演级别、演员、编剧、演员级别、剧本质量、出品方、制作公司、视频频道、版权供应商、版权开始时间、版权占用预算年、版权期限、版权内容的评级、是否独播、所属频道、内容类别、制片地区。本发明实施例中，最终的排片值与视频的属性信息有关，因此，本发明实施例提供的技术方案解决了在影片上映前，如何根据影片的类型、演员以及推广的因素预判出影片的观影人数以及口碑情况，准确的进行排片。

步骤S104，将所述点击率、评论值和属性信息输入到预设的排片模型，得到从所述排片模型输出的所述待预测视频的排片值；

步骤S105，输出所述待预测视频的排片值。

本发明实施例中，步骤S102在具体实施的过程中，可以采用如下的方式来实现：

步骤S121，根据词典提取每一所述评论，得到情感词和程度副词；

这里，可以先对所述评论进行预处理，所述预处理至少包括分词、词性标注和语法分析，然后对预处理后的评论按照预置的词典进行提取，得到情感词和程度副词，这里所述程度副词包括否定词和副词；其中，所述词典可以采用基于台湾大学意见词词典(NTUSD，National Taiwan University School ofDentistry)和知网中文词库(HowNet)。

步骤S122，根据所述情感词和所述程度副词确定每一所述评论的评论值；

这里，在具体实施的过程中，可以为情感词和程度副词定义了一个权重，被程度副词修饰后的情感词其权值应做相应调整，然后根据所述情感词和所述程度副词及其对应的权重计算得出每一评论的评论值。

步骤S123，对所有评论的评论值进行加权求和，得到待预测视频的评论值。

上述的步骤S121至S123实际上利用了基于标注的语料库的学习方法：首先对情感倾向分析语料库进行标注。标注的级别包括文档集的标注(即只判断文档的情感倾向性)、短语级标注和分句级标注。在这些语料的基础上，利用词语的共现关系、搭配关系或者语义关系，以判断词语的情感倾向性。文本的情感分析是从发现句中的情感词开始，通过情感词的倾向和倾向度，来决定句子的情感，从而决定整个文本的情感。但是在实际生活中会发现，否定词的修饰会使情感词语的情感极性发生改变。比如：“我很不喜欢这个片子”，该句中“喜欢”是褒义词，由于否定词“不”的修饰，使其情感极性发生了改变，转变成了负面情感。由于汉语中存在多重否定现象，即当否定词出现奇数次时，表示否定意思；当否定词出现偶数次时，表示肯定意思。此外可以单独构建了一个否定词典notDict，并设置其权值为-1，常见的否定词如：不、没、无、非、莫、弗、毋、勿、未、否、别、無、休。另外，当程度副词修饰情感词，该情感词的情感倾向程度发生了变化。比如：“画面特别差”，“差”是一个贬义词，前面一个程度副词“特别”的修饰使得“差”原来的情感倾向程度发生了变化，这比没有修饰之前更加强烈。因此，为了准确表达文本的情感倾向，需做相应的权值调整。本文中的程度副词来源于知网(HowNet)，选用“情感分析用词语集(beta版)”中的“中文程度级别词语”共219个，把程度副词划分六个等级，为每个程度副词定义了一个权重，被程度副词修饰后的情感词其权值应做相应调整。

本发明实施例中，所述方法还包括：步骤S106，根据所述待预测视频的排片值对所述待预测视频进行排片。

这里，排片值代表着所述待预测视频的正面评价，正面评价越高，则待预测视频越受欢迎，那么在排片的过程中应该多为排片值高的视频排片。需要说明的是，上述的步骤S101至步骤S105可以在第一计算设备上实现，而步骤S106可以在第二计算设备上实现，其中第二计算设备可以为第一计算设备，当然还可以不是第一计算设备，在具体实现的过程中，为了保证公平性以及有更多的用户对待预测视频进行评论，那么第一计算设备可以为第三方的平台，该第三方的含义为非电影方和影院方，而是独立的电影评论方，其中电影方可以为电影的投资方(或制片方)等，所述的第二计算设备可以为影院的排片计算机，排片计算机在排片的过程中可以从第一计算设备上获取待预测视频的排片值，然后根据待预测视频的排片值对所述待预测视频进行排片。当然，上述的步骤S101至步骤S105还可以在排片的计算机上来实现，具体采用何种实现方式，本领域的技术人员可以根据实际情况来实现。

本发明实施例提供的方法，除了适用于影片上映前，还能够适用于影片上映后，根据话题口碑等信息形成对影片的评论，从而对影片的排片进行调整，自适应的满足影迷观影需求。

本发明实施例中，获取待预测视频的归一化的点击率，其中所述待预测视频为未上线或正在上线的视频；获取针对所述待预测视频的每一评论的评论值，并对所有评论的评论值进行加权求和，得到所述待预测视频的评论值；获取所述待预测视频的属性信息；将所述点击率、评论值和属性信息输入到预设的排片模型，得到从所述排片模型输出的所述待预测视频的排片值；输出所述待预测视频的排片值；如此，能够解决现有技术中主观排片的低效性和不准确性。

实施例二

图2为本发明实施例二信息处理方法的组成结构示意图，如图2所示，该方法包括：

步骤S201，获取训练数据，所述训练数据为已上线的视频的点击率、评论值和属性信息；

步骤S202，将所述点击率、评论和属性信息作为输入参数，采用决策树方法建立排片模型；

这里，步骤S201和步骤S202实际上提供一种建立排片模型的方法。

步骤S203，获取待预测视频的归一化的点击率，其中所述待预测视频为未上线或正在上线的视频；

步骤S204，获取针对所述待预测视频的每一评论的评论值，并对所有评论的评论值进行加权求和，得到所述待预测视频的评论值；

步骤S205，获取所述待预测视频的属性信息；

步骤S206，将所述点击率、评论值和属性信息输入到预设的排片模型，得到从所述排片模型输出的所述待预测视频的排片值；

步骤S207，输出所述待预测视频的排片值。

这里，上述的步骤203至步骤207分别对应于实施例一中的步骤101至步骤105，因此，本领域的技术人员可以参阅实施例一而理解上述的步骤201至步骤205，为节约篇幅，这里不再赘述。

实施例三

基于前述的实施例，本发明实施例再提供一种信息处理方法，该方法包括：

步骤S301，获取待预测视频的归一化的点击率，其中所述待预测视频为未上线或正在上线的视频；

步骤S302，将获取的所述待预测视频的评论作为第一评论集合，获取所述第一评论集合中每一所述评论的IP地址；

步骤S303，当所述IP地址对应有两条及两条以上的评论时，计算所述两条及两条以上的评论中两两评论的相似度；

步骤S304，判断所述两两评论的相似度是否大于预设的第一阈值，得到第一判断结果；

步骤S305，当所述第一判断结果表明所述两两评论的相似度大于所述第一阈值时，从所述第一评论集合中删除所述两两评论，得到所述待预测视频的第二评论集合；

这里，当所述第一判断结果表明所述两两评论的相似度小于等于所述第一阈值时，不删除所述两两评论，即在所述第一评论集合中保留所述两两评论。

步骤S306，所述根据词典提取所述第二评论集合中的每一评论，得到情感词和程度副词；

步骤S307，根据所述情感词和所述程度副词确定每一评论的评论值；

步骤S308，对所述第二评论集合中每一评论的评论值进行加权求和，得到所述待预测视频的评论值；

步骤S309，获取所述待预测视频的属性信息；

步骤S310，将所述点击率、评论值和属性信息输入到预设的排片模型，得到从所述排片模型输出的所述待预测视频的排片值；

步骤S311，输出所述待预测视频的排片值。

本发明实施例中，上述的步骤S302至步骤305实际上提供一种防作弊的机制，能够一些刷得分或者口碑的水军，防止发生排片错误的情况。

实施例四

基于前述的实施例，本实施例中将以电影为例，通过大数据基于点击转化率进行预排片以及基于用户评论的情感倾向性分析对影片进行自适应地智能排片。图3-1为本发明实施例种基于用户点击和评价的智能影院排片系统的组成结构示意图，如图3-1所示，该系统300包括客户端310和服务器端320，其中：

客户端310用于接收用户对未上映电影的查询，对正在上映或已上映或未上映电影进行评分，还可以包括对电影的推荐。

服务器端320用于利用训练数据建立排片模型，并将未上映电影的评分、点击率以及属性信息输入到所述排片模型后生成排片值，最终利用排片值进行排片。

相比于现有仅凭院线经理经验的排片方式，本发明实施例更加注重用户的兴趣和评价，以市场来驱动排片过程。对于未上映的电影，可以根据点击转化率确定用户的兴趣，观众可以自己选择希望在黄金档看到的电影；对于已上映影片，用户可以根据观影体验对影片进行打分和评论，可以根据用户的打分和评论对影片进行情感分析以及建模，并结合影片本身的特征进行训练的和测试，动态的调整影片的排片；同时加入防作弊机制，防止水军对影片进行刷分。

本发明实施例具有以下特点：1)系统自动对影片属性以及用户点击进行分析实现特征提取和训练，得到影院排片，避免基于人工排片的繁琐性和主观性，避免暗箱操作，大大减少工作量。2)综合多种特征可使不同特征优势互补，减少单一特征比较片面的缺陷，提高排片的灵活性和通用性，保证院线能够达到最大收益。3)通过用户选取感兴趣的进行点击以及评价，使用户参与选择，更接近用户主观意图，突出了市场化的价值，使一些不受关注的好电影得到重视。4)引入相关反馈机制，使得院线可以根据市场的反馈动态的调整电影的排片，避免因为排片不当造成的票房损失，更大程度反映用户意图，同时加入反作弊机制，防止恶意的刷评分等行为。

图3-2和图3-3为本发明实施例中智能排片方法的流程示意图，需要说明的是，智能排片调整方法与预排片方法类似，但是需要对用户评论进行情感分析，将每一条评论的评价值作为一维特征来进行训练。

为了防止作弊还需要对评论进行甄别，具体地可以对评论使用词袋模型(bag of word)，再用余弦相似度进行比较以去除重复评论。图3-4为本发明实施例防作弊的实现流程示意图，如图3-4所示，当有新评论时，利用词袋模型进行建模，并计算新评论与之前的评论之间的相似度，当相似度大于预设的阈值的时候，舍弃该新评论；当相似度小于预设的阈值的时候，将该新评论加入到已有的评论集，然后利用用户评论对影片进行评分；当再有新评论时，按照该流程对新评论进行甄别，以确定新评论是否为水军所为。

如图3-1和图3-2所示，智能排片调整方法包括：

1)用户兴趣特征提取，基于用户点击转化率(ctr)进行特征提取。

用户根据未上映影片的展现产生点击行为，这种点击行为可以理解为用户对于未上映电影的兴趣程度，因此可以通过这种展现到点击的所有用户平均点击转化率作为一维特征来表示影片，其中点击率等于用户影片点击的次数/用户影片显示次数。

为了更好的统一数据，使模型更加准确，我们需要对所有即将上映影片的点击转化率进行线性归一化，方式如下：

2)提取影片的属性信息。

除用户信息外，影片本身的信息如演员信息、导演信息、影片类型等对影片的排片也会有很大影响，因此将这三维特征也加入训练集，特征大小可以通过之前的先验评分来确定，并进行线性归一化。在特征确定后，我们可以得到每个影片对应一组向量。同时我们根据过去两年的电影票房排名作为目标值，准备进行训练过程。

3)评论情感分析

基于人工标注语料库的学习方法：首先对情感倾向分析语料库进行手工标注。标注的级别包括文档集的标注(即只判断文档的情感倾向性)、短语级标注和分句级标注。在这些语料的基础上，利用词语的共现关系、搭配关系或者语义关系，以判断词语的情感倾向性。文本的情感分析是从发现句中的情感词开始，通过情感词的倾向和倾向度，来决定句子的情感，从而决定整个文本的情感。但是我们在实际生活中会发现，否定词的修饰会使情感词语的情感极性发生改变。比如：“我很不喜欢这个片子”，该句中“喜欢”是褒义词，由于否定词“不”的修饰，使其情感极性发生了改变，转变成了负面情感。由于汉语中存在多重否定现象，即当否定词出现奇数次时，表示否定意思；当否定词出现偶数次时，表示肯定意思。此外可以单独构建了一个否定词典notDict，并设置其权值为-1，常见的否定词如：不、没、无、非、莫、弗、毋、勿、未、否、别、無、休。另外，当程度副词修饰情感词，该情感词的情感倾向程度发生了变化。比如：“画面特别差。”，“差”是一个贬义词，前面一个程度副词“特别”的修饰使得“差”原来的情感倾向程度发生了变化，这比没有修饰之前更加强烈。因此，为了准确表达文本的情感倾向，需做相应的权值调整。本文中的程度副词来源于知网(HowNet)，选用“情感分析用词语集(beta版)”中的“中文程度级别词语”共219个，把程度副词划分六个等级，为每个程度副词定义了一个权重，被程度副词修饰后的情感词其权值应做相应调整。

4)防作弊机制

为了防止恶意刷单以及刷评论，需要对用户基于访问网际协议(IP)地址进行过滤，同时对相似评论进行去重。采用词袋模型来计算评论相似度，由于电影评论具有相似性，因此需要将词袋模型的阈值设置的比较高。

5)训练过程

系统训练过程使用GBDT(Gradient Boosting Decision Tree)又叫MART(Multiple Additive Regression Tree)，是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算法，GBDT通过Shrinkage(缩减)来进行训练。Shrinkage的思想认为，每次走一小步逐渐逼近结果的效果，要比每次迈一大步很快逼近结果的方式更容易避免过拟合。即它不完全信任每一个棵残差树，它认为每棵树只学到了真理的一小部分，累加的时候只累加一小部分，通过多学几棵树弥补不足。首先确定初始提升树f_o(x)，假定第m步的模型，通过经验风险极小化确定下一颗树的参数。

公式(3)和(4)是用来通过经验风险极小化确定参数，其中提F_m(x)表示表示第m步的模型，F_(m-1)(x)表示表示第(m-1)步的模型，L(,)表示损失函数，y_i表示第i个目标值，γ表示当前偏置，x_i表示第i个输入样本。

图3-5为本发明实施例预测权值的过程示意图，图3-5示出一个算法模型这个都是计算出来的过程，举例俩说，假设有四部电影，电影的名称分别为007(5)、我是正人(4)、火星救援(3)和鬼吹灯(2)，假设权重越大，排片越多，其中括号内的数字为要预测的权重。如图3-5所示，电影007得分为第一预测值4.5与第二次预测的残差0.5之和5(4.5+0.5＝5)。电影鬼吹灯得分为第一预测值2.5与第二次预测的残差-0.5之和2(2.5-0.5＝2).

实施例五

基于前述的实施例，本发明实施例还提供一种信息处理装置，该装置所包括的第一获取单元、第二获取单元、求和单元、第三获取单元、处理单元和输出单元等单元，以及各单元所包括的各模块，都可以通过计算设备中的处理器来实现，当然所述处理器所实现的功能也可通过具体的逻辑电路实现；在具体实施例的过程中，处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)等。

图4为本发明实施例五信息处理装置的组成结构示意图，如图4所示，该装置400包括第一获取单元401、第二获取单元402、求和单元403、第三获取单元404、处理单元405和输出单元406，其中：

所述第一获取单元401，用于获取待预测视频的归一化的点击率，其中所述待预测视频为未上线或正在上线的视频；

所述第二获取单元402，用于获取针对所述待预测视频的每一评论的评论值；

所述求和单元403，用于对所有评论的评论值进行加权求和，得到所述待预测视频的评论值；

所述第三获取单元404，用于获取所述待预测视频的属性信息；

所述处理单元405，用于将所述点击率、评论值和属性信息输入到预设的排片模型，得到从所述排片模型输出的所述待预测视频的排片值；

所述输出单元406，用于输出所述待预测视频的排片值。

本发明实施例中，所述装置还包括排片单元，用于根据所述待预测视频的排片值对所述待预测视频进行排片。

实施例六

基于前述的信息处理方法，本发明实施例还提供一种信息处理装置，该装置所包括的第一获取单元、第二获取单元、求和单元、第三获取单元、处理单元和输出单元等单元，以及各单元所包括的各模块，都可以通过计算设备中的处理器来实现，当然所述处理器所实现的功能也可通过具体的逻辑电路实现；在具体实施例的过程中，处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)等。

图5为本发明实施例六信息处理装置的组成结构示意图，如图5所示，该装置400包括建立单元500、第一获取单元401、第二获取单元402、求和单元403、第三获取单元404、处理单元405和输出单元406，其中建立单元500，用于建立排片模型，具体包括第二获取模块501和建立模块502，其中：

所述第二获取模块501，用于获取训练数据，所述训练数据为已上线的视频的点击率、评论值和属性信息；

所述建立模块502，用于将所述点击率、评论和属性信息作为输入参数，采用决策树方法建立排片模型。

所述第二获取单元402，用于获取所述待预测视频的评论；

所述求和单元403，用于分析所述评论，得到所述待预测视频的评论值；

所述输出单元406，用于输出所述待预测视频的排片值。

实施例七

该装置400包括建立单元500、第一获取单元401、第二获取单元402、求和单元403、第三获取单元404、处理单元405和输出单元406，其中所述第二获取单元402包括第一获取模块421、提取模块422和确定模块423，其中：

所述第一获取模块421，用于获取针对所述待预测视频的每一评论；

所述提取模块422，用于根据词典提取每一所述评论，得到情感词和程度副词；

所述确定模块423，用于根据所述情感词和所述程度副词确定每一所述评论的评论值。

所述求和单元403，用于对所有评论的评论值进行加权求和，得到待预测视频的评论值；

所述输出单元406，用于输出所述待预测视频的排片值。

实施例八

该装置400包括第一获取单元401、第二获取单元402、求和单元403、第三获取单元404、处理单元405和输出单元406，其中所述第二获取单元402包括获取模块421、计算模块424、判断模块425、处理模块426、提取模块422、确定模块423，其中：

所述第二获取单元402，用于获取所述待预测视频的评论，作为第一评论集合；

所述第一获取模块421，用于将获取的所述待预测视频的评论确定为第一评论集合，获取所述第一评论集合中每一所述评论的网际协议IP地址；

所述计算模块424，用于当所述IP地址对应有两条及两条以上的评论时，计算所述两条及两条以上的评论中两两评论的相似度；

所述判断模块425，用于判断所述两两评论的相似度是否大于预设的第一阈值，得到第一判断结果；

所述处理模块426，用于当所述第一判断结果表明所述两两评论的相似度大于所述第一阈值时，从所述第一评论集合中删除所述两两评论，得到所述待预测视频的第二评论集合；

所述提取模块422，用于所述根据词典提取所述第二评论集合中的每一评论，得到情感词和程度副词；

所述确定模块423，用于根据所述情感词和所述程度副词确定每一评论的评论值；

所述求和单元403，用于对所述第二评论集合中每一评论的评论值进行加权求和，得到所述待预测视频的评论值。

所述输出单元406，用于输出所述待预测视频的排片值。

本发明实施例中，所述装置还包括排片单元，用于根据所述待预测视频的排片值对所述待预测视频的视频进行排片。

本发明实施例，通过引入机器学习的方法参考电影本身特征以及用户的点击转化率(ctr)进行特征抽取，训练以及测试，对电影进行智能的预排片。将特征分成影片的本身特征(属性信息)以及用户特征(点击率和评分值)，并通过归一化将特征统一，通过机器学习中随机森林模型进行训练，将得出的模型用于影片的预排片。在获取影片评分值的过程中，对用户评论进行情感分析，避免依靠单一评分的片面性，将情感分析的结果应用于特征向量中，训练模型同时定期的进行迭代，动态的对排片进行调整，减少排片不合理带来的票房损失。本发明实施例还提供了防作弊机制，可以将评论向量化，通过计算余弦相似度以及对访问IP进行哈希等方法找出恶意的评论评分，防止恶意刷分，对院线的排片产生不良的影响。由此可见，本发明实施例具有以下优点：

1)，通过点击转化率和评论情感倾向性来确定影院的排片，更接近用户主观意图，避免了人为的主观性。2)根据评论信息分析后进行排片的动态调整，更加准确并贴近市场需求，能够及时避免不必要的票房损失。3)通过多个维度的特征选择，充分考虑了演员、类型、用户情感等多方面的因素，避免单一特征片面性和应用场景的局限性，提高应用的普适性和灵活性。4)通过对IP进行hash，对评论向量化去重等方式避免了恶意的评论和评分，提高了排片准确性。综上所示，本发明实施例基于大数据和机器学习技术，提出了更加智能并贴近客户的排片方法，在该框架下系统可融合多种特征，具有准确行和灵活性，具有十分广阔的应用推广前景。

这里需要指出的是：以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果，因此不做赘述。对于本发明装置实施例中未披露的技术细节，请参照本发明方法实施例的描述而理解，为节约篇幅，因此不再赘述。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种信息处理方法，其特征在于，所述方法包括：

获取待预测视频的归一化的点击率，其中所述待预测视频为未上线或正在上线的视频；

获取所述待预测视频的属性信息；

输出所述待预测视频的排片值。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述待预测视频的排片值对所述待预测视频进行排片。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：建立排片模型，具体包括：

获取训练数据，所述训练数据为已上线的视频的点击率、评论值和属性信息；

将所述点击率、评论和属性信息作为输入参数，采用决策树方法建立排片模型。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述获取针对所述待预测视频的每一评论的评论值，包括：

获取针对所述待预测视频的每一评论；

根据词典提取每一所述评论，得到情感词和程度副词；

根据所述情感词和所述程度副词确定每一所述评论的评论值。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

将获取的所述待预测视频的评论作为第一评论集合，获取所述第一评论集合中每一所述评论的网际协议IP地址；

当所述IP地址对应有两条及两条以上的评论时，计算所述两条及两条以上的评论中两两评论的相似度；

判断所述两两评论的相似度是否大于预设的第一阈值，得到第一判断结果；

当所述第一判断结果表明所述两两评论的相似度大于所述第一阈值时，从所述第一评论集合中删除所述两两评论，得到所述待预测视频的第二评论集合；

对应地，所述根据词典提取所述第二评论集合中的每一评论，得到情感词和程度副词；

根据所述情感词和所述程度副词确定每一评论的评论值；

对所述第二评论集合中每一评论的评论值进行加权求和，得到所述待预测视频的评论值。

6.根据权利要求1至4任一项所述的方法，其特征在于，所述属性信息至少以下信息中的任一项：视频类别、导演、导演级别、演员、编剧、演员级别、剧本质量、出品方、制作公司、视频频道、版权供应商、版权开始时间、版权占用预算年、版权期限、版权内容的评级、是否独播、所属频道、内容类别、制片地区。

7.一种信息处理装置，其特征在于，所述装置包括第一获取单元、第二获取单元、求和单元、第三获取单元、处理单元和输出单元，其中：

所述第三获取单元，用于获取所述待预测视频的属性信息；

所述输出单元，用于输出所述待预测视频的排片值。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括排片单元，用于根据所述待预测视频的排片值对所述待预测视频进行排片。

9.根据权利要求7所述的装置，其特征在于，所述装置还包括建立单元，用于建立排片模型，具体包括第一获取模块和建立模块，其中：

所述第一获取模块，用于获取训练数据，所述训练数据为已上线的视频的点击率、评论值和属性信息；

所述建立模块，用于将所述点击率、评论和属性信息作为输入参数，采用决策树方法建立排片模型。

10.根据权利要求7所述的装置，其特征在于，所述第二获取单元包括第二获取模块、提取模块和确定模块，其中：

所述第二获取模块，用于获取针对所述待预测视频的每一评论；

所述提取模块，用于根据词典提取每一所述评论，得到情感词和程度副词；

所述确定模块，用于根据所述情感词和所述程度副词确定每一所述评论的评论值。

11.根据权利要求7至10任一项所述的装置，其特征在于，所述第二获取单元还包括计算模块、判断模块和处理模块，其中：

所述第一获取模块，还用于将获取的所述待预测视频的评论确定为第一评论集合，获取所述第一评论集合中每一所述评论的网际协议IP地址；

所述计算模块，用于当所述IP地址对应有两条及两条以上的评论时，计算所述两条及两条以上的评论中两两评论的相似度；

所述判断模块，用于判断所述两两评论的相似度是否大于预设的第一阈值，得到第一判断结果；

所述处理模块，用于当所述第一判断结果表明所述两两评论的相似度大于所述第一阈值时，从所述第一评论集合中删除所述两两评论，得到所述待预测视频的第二评论集合；

对应地，所述提取模块，用于所述根据词典提取所述第二评论集合中的每一评论，得到情感词和程度副词；

所述确定模块，用于根据所述情感词和所述程度副词确定每一评论的评论值；

所述求和单元，用于对所述第二评论集合中每一评论的评论值进行加权求和，得到所述待预测视频的评论值。