CN107506456A

CN107506456A - 一种基于影片剧情信息的相似度计算方法

Info

Publication number: CN107506456A
Application number: CN201710756859.9A
Authority: CN
Inventors: 冯方方; 孙健; 刘斌; 付强
Original assignee: Universal Wisdom Technology Beijing Co Ltd
Current assignee: Universal Wisdom Technology Beijing Co Ltd
Priority date: 2017-08-29
Filing date: 2017-08-29
Publication date: 2017-12-22

Abstract

本发明实施例涉及一种基于影片剧情信息的相似度计算方法，包括：服务器在影片数据库中获取影片剧情信息；其中，影片数据库中包括多个影片ID和相对应的影片剧情信息；对剧情信息进行分词，得到影片ID对应的多个分词信息；在分词信息中提取预设数量的关键词信息；统计影片剧情信息中每个关键词信息的出现次数；选取出现次数大于预设次数的关键词信息；建立影片ID和关键词信息之间的关联关系，并储存；基于关键词信息根据预设规则计算影片相似度；对影片相似度进行排序，根据排序结果得到推荐影片；建立影片ID和推荐影片ID之间的关联关系，并储存。

Description

一种基于影片剧情信息的相似度计算方法

技术领域

本发明涉及视频技术领域，尤其涉及一种基于影片剧情信息的相似度计算方法。

背景技术

在用户通过视频网站观看视频时，视频网站通常会向用户推荐与用户当前观看的视频相关的视频。例如，当用户以非全屏模式观看视频时，可以在视频播放窗口的右侧和/或下侧显示与用户当前观看的视频相关的视频的信息。视频推荐效果的好坏主要根据点击率的高低来评判，通常，点击率越高，则视频推荐效果越好。

视频推荐是基于影片相似度，目前计算影片相似度的主要方法为基于物品的协同过滤算法，或基于影片类型、影人、地域等属性的算法。协同过滤推荐是在信息过滤和信息系统中正迅速成为一项很受欢迎的技术。与传统的基于内容过滤直接分析内容进行推荐不同，协同过滤分析用户兴趣，在用户群中找到指定用户的相似(兴趣)用户，综合这些相似用户对某一信息的评价，形成系统对该指定用户对此信息的喜好程度预测。

但是，基于协同过滤算法存在无法处理冷启动的问题，基于影片相关属性的算法存在颗粒度比较粗的不足，从而导致相似度计算不准确，进而导致推荐效果不理想。

发明内容

本发明的目的是针对现有技术的缺陷，提供一种基于影片剧情信息的相似度计算方法，基于影片剧情信息中的关键词信息准确计算影片的相似度，并且根据排序结果对影片进行推荐，从而提高推荐效果。

有鉴于此，本发明实施例提供了一种基于影片剧情信息的相似度计算方法，包括：

服务器在影片数据库中获取影片剧情信息；其中，所述影片数据库中包括多个影片ID和相对应的影片剧情信息；

对所述剧情信息进行分词，得到影片ID对应的多个分词信息；

在所述分词信息中提取预设数量的关键词信息；

统计所述影片剧情信息中每个关键词信息的出现次数；

选取所述出现次数大于预设次数的关键词信息；

建立所述影片ID和所述关键词信息之间的关联关系，并储存；

基于所述关键词信息根据预设规则计算影片相似度；

对所述影片相似度进行排序，根据排序结果得到推荐影片；

建立影片ID和所述推荐影片ID之间的关联关系，并储存。

进一步优选的，在根据排序结果得到推荐影片之后，所述方法还包括:

所述服务器接收用户终端发送的选择指令；其中，所述选择指令中包括目标影片ID；

根据所述目标影片ID获取相关联的所述推荐影片ID；

根据所述目标影片ID获取目标影片数据，并且根据所述推荐影片ID获取影片数据；

根据所述目标影片数据和推荐影片数据生成影片显示数据，发送给所述用户终端。

进一步优选的，所述预设规则为：s＝2n/(a+b)；

其中，s为相似度，a为第一影片相对应的关键词数量，b为第二影片相对应的关键词数量，n为所述第一影片和所述第二影片相同关键词的数量。

进一步优选的，所述预设规则为：s＝(n*n)/(a*b)；

进一步优选的，所述根据排序结果得到推荐影片具体为：

选择预设排名的影片为推荐影片。

进一步优选的，所述预设数量不大于20个。

进一步优选的，预设次数为5次。

本发明实施例提供的一种基于影片剧情信息的相似度计算方法，基于影片剧情信息中的关键词信息准确计算影片的相似度，并且根据排序结果对影片进行推荐，从而提高推荐效果。

附图说明

图1为本发明实施例提供的基于影片剧情信息的相似度计算方法流程图；

图2为本发明实施例提供的影片推荐方法流程图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

本发明实施例提供的基于影片剧情信息的相似度计算方法，执行主体为服务器，基于影片剧情信息中的关键词计算影片相似度，根据相似度向用户推荐影片。

图1为本发明实施例提供的基于影片剧情信息的相似度计算方法流程图，如图1所示，包括：

步骤101，服务器在影片数据库中获取影片剧情信息；

其中，影片数据库是用于储存影片信息的，影片信息中包括影片ID和相对应的影片剧情信息，影片ID是用于识别和查找影片的，影片剧情信息是指对影片的剧情的介绍，每个影片都具有影片ID和相对应的剧情信息，影片信息还可以包括影片名称、影片海报等。在影片数据库中存储的影片信息是供应商提供的，影片可以是电影、电视剧、综艺节目等等。

步骤102，对剧情信息进行分词，得到影片ID对应的多个分词信息；

在获取影片剧情信息之后，服务器对影片数据库中每个影片的影片剧情信息分别进行分词。

具体的，本发明实施例采用的分词是基于字符串匹配的分词方法进行分词的，这种方法又称机械分词方法，按照一定的策略将待分析的汉字串与机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功，即识别出一个词。按照扫描方向的不同，串匹配分词方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的情况，可以分为最大(最长)匹配和最小(最短)匹配；按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。

进一步的，分词可以是采用各种分词工具实现的，比如ICTCLAS、PHPAnalysis等。

步骤103，在分词信息中提取预设数量的关键词信息；

分词信息是具有词性属性、词长属性、词频属性和位置属性的，词性属性具体包括名词、时间词、处所词、方位词、动词、形容词、区别词、状态词、代词、数次、量词、副词、介词、连词、助词、叹词、语气词、拟声词、前缀、后缀、字符串和标点符号。

具体的，服务器对分词信息是具有词性属性、词长属性、词频属性和位置属性信息进行处理和计算，得到每个分词信息的权值并降序排列，选取预设数量的关键词信息，优选的，选取的关键词数量为20个，避免过多的非特征词或特征词未被提取出来，需要说明的是，此处提取的关键词为候选关键词。

步骤104，统计影片剧情信息中每个关键词信息的出现次数，选取出现次数大于预设次数的关键词信息；

服务器在获取到每个影片的多个关键词后，对所有影片的关键词进行数量统计。当关键词在所有影片中出现次数小于预设次数时，将关键词舍去，从而得到每个影片对应的关键词信息，此关键词信息不是候选关键词，而是最终确定的影片对应的关键词。

需要说明的是，对所有影片的关键词进行词频统计，而不是对每个影片关键词的词频进行统计的目的是避免关键词被筛选掉，因为在一个影片的影片信息中某个关键词的词频可能为1，但在多个影片的影片信息中可能均包括同一个关键词，因此服务器对所有影片的关键词的词频进行统计，从而选取出更优的关键词，进而保证影片相似度计算的准确性。

其中，预设次数优选为5次，也就是说只要候选关键词在所有影片信息中词频总和到达5次，该候选关键词就不会被过滤掉，则确定该候选关键词为最终关键词。

需要说明的是，预设次数是根据影片数据库中影片数量进行设定的，本领域技术人员可以根据实际情况对预设次数进行设定。

步骤105，建立影片ID和关键词信息之间的关联关系，并储存；

在对候选关键词筛选后得到每个影片相对应的多个关键词，建立影片ID和相对应的多个关键词的关联关系，并储存在影片数据库中，便于数据的查询。

步骤106，基于关键词信息根据预设规则计算影片相似度；

具体的，相似度是指第二影片相对于第一影片的相似程度，第一影片可以是影片数据库中任意一个影片，第二影片是指除第一影片以外的影片，相似度用[0,1]区间内的数字进行表示，相似度越接近1说明相似度越高。基于关键词信息并按照预设规则计算相似度，其中，预设规则为：

s＝2n/(a+b) (式1)

其中，s为相似度，a为第一影片相对应的关键词数量，b为第二影片相对应的关键词数量，n为第一影片和所述第二影片相同关键词的数量。

在一个具体的例子中，第一影片的目标关键词数量为15个，第二影片的关键词数量为17个，第一影片和第二影片相同的关键词数量为8个，则第二影片相对于第一影片的相似度s＝2*8/(15+17)＝0.5。

上述预设规则还可以采用其他公式，比如：

s＝(n*n)/(a*b) (式2)

在另一个具体的例子中，第一影片的关键词数量为18个，第二影片的关键词数量为19个，第一影片和第二影片相同的关键词数量为15个，则第二影片相对于第一影片的相似度s＝15*15/(18*19)＝0.66。

在相似度计算时，依次选取影片数据库中的每个影片作为第一影片，对于每个影片来说，均得到(m-1)个第二影片相对于该影片的相似度；其中，m为影片数据库中影片的数量。

在优选的实施例中，为了减少计算时间，由于影片B相对于影片A的相似度和影片A相对于影片B的相似度相同，因此当计算得到影片B相对于影片A的相似度之后，无需再计算影片A相对于影片B的相似度，直接获取相似度结果即可，从而减少一半的计算量，当影片数量较多时，可大大提高运行速度。

步骤107，对影片相似度进行排序，根据排序结果得到推荐影片；

对于每个影片来说，服务器对计算得到的(m-1)个第二影片相对于该影片的相似度进行排序，排在最前面的相似度最高，选择预设排名的影片作为推荐影片；其中，预设排名可以为5个，也就说选取相似度最高的5个影片作为推荐影片，对于每个影片都得到5个相关的推荐影片。

需要说明的是，预设排名数量是本领域技术人员根据界面尺寸和影片海报尺寸进行设定的。

步骤108，建立影片ID和推荐影片ID之间的关联关系，并储存。

通过上述步骤101至步骤108使每个影片都关联了与其相对应的推荐影片，在用户选择某个影片时，服务器会将影片相关联的推荐影片推送给用户，图2为本发明实施例提供的影片推荐方法流程图，下面结合图2对影片推送方法进行具体介绍，方法包括：

步骤201，服务器接收用户终端发送的选择指令；

其中，用户终端可以是智能手机或智能电视，用户终端与服务器无线连接，在用户终端的显示屏上显示影片展示界面，在影片展示界面上可以包括影片名称和相对应的影片海报，用户终端接收用户在影片展示界面输入的选择指令，并发送给服务器；其中，选择指令中包括目标影片ID，为了描述方便，将用户选择的影片称为目标影片。

需要说明的是，选择指令的输入可以是对智能手机屏幕的点击，也可以是使用遥控器对智能电视上显示的影片进行选择。

步骤202，根据目标影片ID获取相关联的推荐影片ID；

步骤203，根据目标影片ID获取目标影片数据，并且根据推荐影片ID获取影片数据；

其中，目标影片的影片数据可以包括影片名称、影片海报、影片剧情介绍、导演演员信息等；推荐影片数据包括影片名称和影片海报。

步骤204，根据目标影片数据和推荐影片数据生成影片显示数据，发送给用户终端。

用户终端对影片显示数据进行显示，用户在看到所选影片信息的同时，也可以看到推荐的相似影片。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于影片剧情信息的相似度计算方法，其特征在于，所述方法包括：

在所述分词信息中提取预设数量的关键词信息；

统计所述影片剧情信息中每个关键词信息的出现次数；

选取所述出现次数大于预设次数的关键词信息；

基于所述关键词信息根据预设规则计算影片相似度；

对所述影片相似度进行排序，根据排序结果得到推荐影片；

建立影片ID和所述推荐影片ID之间的关联关系，并储存。

2.根据权利要求1所述的基于影片剧情信息的相似度计算方法，其特征在于，在根据排序结果得到推荐影片之后，所述方法还包括:

根据所述目标影片ID获取相关联的所述推荐影片ID；

3.根据权利要求1所述的基于影片剧情信息的相似度计算方法，其特征在于，所述预设规则为：s＝2n/(a+b)；

4.根据权利要求1所述的基于影片剧情信息的相似度计算方法，其特征在于，所述预设规则为：s＝(n*n)/(a*b)；

5.根据权利要求1所述的基于影片剧情信息的相似度计算方法，其特征在于，所述根据排序结果得到推荐影片具体为：

选择预设排名的影片为推荐影片。

6.根据权利要求1所述的基于影片剧情信息的相似度计算方法，其特征在于，所述预设数量不大于20个。

7.根据权利要求1所述的基于影片剧情信息的相似度计算方法，其特征在于，预设次数为5次。