CN106354861A

CN106354861A - 电影标签自动标引方法及自动标引系统

Info

Publication number: CN106354861A
Application number: CN201610804362.5A
Authority: CN
Inventors: 柴剑平; 刘杉; 唐瑞; 董瑶; 范馨怡
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2016-09-06
Filing date: 2016-09-06
Publication date: 2017-01-25
Anticipated expiration: 2036-09-06
Also published as: CN106354861B

Abstract

本发明公开了电影标签自动标引方法及自动标引系统，由于主要包括：生成电影语义标签并制定电影语义元数据规范框架；建立电影自动标引系统，电影自动标引系统根据电影语义元数据规范框架生成电影传输特征信息语义标签向量代码，并填充到电影语义标签库；从而可以克服现有技术中人工标引成本很高、标引速度慢且不适用于在线实时数据信息的缺点，实现网络信息资源的“个性化按内容主动服务”的优点；实现对数量大、种类多、动态性强的电影信息进行全面、准确、高效地标引的优点。

Description

电影标签自动标引方法及自动标引系统

技术领域

本发明涉及电影自动标引技术领域，具体地，涉及电影标签自动标引方法及自动标引系统。

背景技术

目前，观影已经成为人们在业余时间休闲娱乐的重要方式。电影丰富了我们的精神生活，并逐渐成为人们生活中不可缺少的一部分。随着互联网的迅猛发展，网络信息类型及信息量都急剧增长，有更多的音视频信息通过网络共享，互联网与电影行业的融合度也越来越高。日益成熟的粉丝经济、众筹、大数据、在线购票等，使得用户对电影信息服务的要求不断提高，许多问题也就应运而生。

一方面是电影资源的管理问题。电影资源的分类和描述，是检索和挖掘资源内容的基础。在面对如何对大量媒体资源进行分类的问题时，目前各大网站、电视台、研究机构对电影资源的分类方法都不尽相同，即便是分了类也是按照自己的想法进行分类，有的甚至只是视频资源的堆积。如果没有一定的分类方法和分类标准，编辑者们就会迷失在大量的电影资料中而无法找到需要的素材，这给以后的检索查询带来了很大的困难。

另一方面是电影资源的共享问题。虽然各大运营商都为用户提供了丰富的电影内容，但是由于类别众多，层级复杂，用户难以在海量的内容中快速找到自己感兴趣的部分，这样就会造成内容资源的大量浪费。

发明内容

本发明的目的在于，针对上述问题，提出电影标签自动标引方法及自动标引系统，以实现网络信息资源的“个性化按内容主动服务”的优点，克服人工标引成本很高、标引速度慢且不适用于在线实时数据信息的缺点，实现对数量大、种类多、动态性强的电影信息进行全面、准确、高效地标引的优点。

为实现上述目的，本发明采用的技术方案是：电影标签自动标引方法，主要包括：以下步骤：

a. 生成电影语义标签并制定电影语义元数据规范框架；

b .建立电影自动标引系统，电影自动标引系统根据电影语义元数据规范框架生成电影传输特征信息语义标签向量代码，并填充到电影语义标签库。

进一步地，步骤a中电影语义标签为矢量标签，具体为描述电影特征信息的n维向量，所述n是向量的维度，反映了描述信息的完备程度，为标签分量。

进一步地，所述电影语义元数据规范框架包括一级标题、二级标题和电影描述。

进一步地，所述步骤b中，建立电影自动标引系统包括实现电影自动标引和实现标签库自动更新。

进一步地，所述实现电影自动标引包括以下步骤：

b1．利用基于关键词的主题网络爬虫技术获取指定电影的相关信息；

b2.对获取到的制定电影的相关信息进行中文分词，并对字词的重要性进行加权；

b3.提取标签信息，包括根据关键词提取标签信息、字幕识别提取标签信息和用户提供标签信息；

b4.标签选择；

b5.确定标签；

b6.自动标引。

进一步地，步骤b1具体为：

b11. 网页抓取，具体包括选择一个与需要爬取的电影高度相关的URL种子作为算法的输入，通过直接向网站服务器发出请求的方式将网页抓取下来并保存在本地或是网络存储器中；

b12. URL提取，具体包括将网页上用HTML语言表示的地址信息都提取出来，将相对地址转化为绝对地址，并把它们插入到URL队列中；

b13.提取网页内容，将网页文本保存到数据库中，具体包括在相应报文头部的Charset字段中取得网页的编码，然后使用这种编码格式来进行解码，如果没有取得编码格式，则使用默认编码来进行解码；

b14. URL筛选，具体包括分析响应中的反应文件的类型的Content-Type字段，对步骤b14提取出来的网页内容进行过滤；

b15.重复步骤b11-b14。

进一步地，所述步骤b2中，所述中文分词采用最大长度匹配法，具体包括:

b21. 从句子的开始位置起取一个长度为K的字串，所述K为词典中最长的词的字数，依次将字串与词库中的词进行匹配，若词库中有字长为K的词，则匹配成功，把这个字串作为一个词从句子中切分出去；

b22. 找到句子剩余部分的起始位置，同样取另一个字长为K的字串，重复步骤b11，直到把句子切分完为止；

b23.当词库中找不到一个匹配当前字串的词条时，则删掉该字串尾部的一个字，另外生成K-1个字长的字串，再到词库中查询，若匹配成功，把字长为K-1的字串作为一个词，从句子中切分出去；如果匹配失败，继续执行本步骤，生成K-2的字串去词库中匹配，直到成功匹配。

进一步地，所述步骤b3中，根据关键词提取标签信息主要包括：

b31.计算词频TF，所述词频为某个词在文章中的出现次数与文章的总次数作商；

b32.计算逆文档频率IDF，所述逆文档频率的计算公式为：

逆文档频率= ，所述语料库用于模拟语言的使用环境，所述语料库的文档总数是针对每部电影所爬取的文档总数；

b33.计算TF-IDF，计算公式为：TF-IDF=词频(TF)逆文档频率(IDF)，计算出每个词的TF-IDF的值，按照降序排列，取排在最前面的词，即为提取出的电影标签。

所述字幕识别提取标签信息包括：

b34. 通过对文字事件的检测，对视频帧进行采样，得到静态的、彩色图像，然后从这些彩色图像中提取文字区域；

b35. 提取出文字区域后，将图像交给OCR系统进行处理，具体为，首先对图像进行预处理去噪，将原图像转为二值图像，得到二值图像后，从整体图像中识别出单个汉字，具体为，先利用文字的行与行之间存在的一定的空隙对整体进行行切分，再当行切分结束后，把文本行切分为单个字，在字切分中，分为两个过程，首先是求出文字、符号或部件的左右界；其次是合并部件为完整的文本汉字，从而完成汉字的切分。

一种电影自动标引系统，包括用户与标引系统的交互接口、用户行为数据库、标签库、电影推荐系统、用户终端和网络平台；

自动标引系统通过用户与标引系统的交互接口收集用户的基本信息和行为记录，同时，用户通过该交互接口获取个性的标签推荐结果；

所述用户行为数据库用于存储用户在使用广电和移动端的各种行为记录，然后将记录进行降噪和归一化处理后变成可供深度挖掘的原始数据；

所述用户终端设置用户关联账号，用户登录播放电影视频的网络平台进行电影点播，电影推荐系统产生推荐，并接收用户终端的推荐反馈；

自动标引系统通过网络平台及字幕识别的方式对标签库自动更新，其中通过网络平台对标签库自动更新具体为通过对电影网站、影评网站、院线网站或社交平台24小时网络信息的获取自动提取并更新标签库。

本发明各实施例的电影标签自动标引方法及自动标引系统，由于主要包括：生成电影语义标签并制定电影语义元数据规范框架；建立电影自动标引系统，电影自动标引系统根据电影语义元数据规范框架生成电影传输特征信息语义标签向量代码，并填充到电影语义标签库；从而可以克服现有技术中人工标引成本很高、标引速度慢且不适用于在线实时数据信息的缺点，实现网络信息资源的“个性化按内容主动服务”的优点；实现对数量大、种类多、动态性强的电影信息进行全面、准确、高效地标引的优点。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明电影标签自动标引方法及自动标引系统具体实施方式中的电影语义元数据规范框架图；

图2为本发明电影标签自动标引方法及自动标引系统具体实施方式中的自动标引原理图；

图3为本发明电影标签自动标引方法及自动标引系统具体实施方式中的主题网络爬虫算法示意图；

图4为本发明电影标签自动标引方法及自动标引系统具体实施方式中自动标引系统结构组成图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

具体地，一种电影自动标引方案，以全面、准确、高效地自动提取电影的相关信息。首先，电影语义元数据规范定义了数据广播的内容组织规范和标准业务流程，有了统一的标引标准，利于媒体资料的交换与管理。其次，语义标签按内容定位的方式改变了用户在浩瀚信息资源中艰难搜索的局面，变“人找信息”为“信息找人”，实现网络信息资源的“个性化按内容主动服务”。最后，利用网络资源爬取、文本语义挖掘、视频字幕识别及个性化推荐技术对电影资源进行自动标引，改善了人工标引成本很高、标引速度慢且不适用于在线实时数据信息的缺点，可以对数量大、种类多、动态性强的电影信息进行全面、准确、高效地标引。

电影语义信息标签是指通过分析网络信息和电影视频源信息，提取出能描述该电影的重要特征，从而建立一个描述电影特征信息的n维向量，其中每一个向量元素都揭示了电影视频数据的一个重要特征，n是向量的维度，它反映了描述信息的完备程度，n越大表示特征信息越完备。针对每一个标签分量，如果它是静态的，仅在提供管理员权限的条件下才可进行修改；而对于动态标签，我们则可以对其进行自动更新等操作。因此，矢量化标签能增强标签的可变性和适应性。我们主要通过网络爬取信息后进行文本语义挖掘和直接识别视频字幕两种途径生成电影语义标签，并制定了如图1所示的电影语义元数据规范框架。

由图1可知，语义标签向量的每一个元素都映射网络音视频信息的一个特征，这样更有利于用户定位信息资源和分析数据，有利于资源的管理与共享。它使得信息的描述和分类可以实现格式化，为机器自动化处理创造了可能。电影自动标引系统则根据由图1制定的语义标签规范文档并生成电影传输特征信息语义标签向量代码，最后填充到语义标签库。

在图2中，本文设计的自动标引系统主要分为电影自动标引和标签库的自动更新两大部分：

(1) 电影自动标引步骤，结合图2：

如今网络规模越来越大，电影信息的更新频率变快，仅仅依靠人工的方法进行电影标签标引几乎是一项不可能完成的工作。因此，我们先利用基于关键词的主题网络爬虫技术获取指定电影的相关信息，然后对获取到的信息进行中文分词后对字词的重要性进行加权，从而提取关键词标签信息。考虑到网络信息的片面性，我们同时还利用图片识别技术对电影字幕信息进行识别，获取官方标签信息。此外，用户根据自己的偏好加上的标签也会被考虑在内。综合这几方面信息，我们对电影进行全方位的标签标引。

中文分词

在爬取完有关该电影的信息后，肯定有许多冗余信息。为了能够提取出我们所需要的标签信息，首先就需要对网页内容进行分词，分词的准确与否会直接影响到标签的准确率。因此，我们对现有的分词技术进行综合分析后决定使用最大长度匹配法（又称MM法）完成分词功能。

为了完成分词，我们使用一个相当大的分词词库。设词典中最长的词为K个字，则每次均从句子的开始位置起取一个长度为K的字串，依次将它与词库中的词进行匹配，若词库中有这样一个字长为K的词，则匹配成功，就把这个字串作为一个词从句子中切分出去。接着找到句子剩余部分的其实位置，依上述方法同样取另一个字长为K的字串，重复以上方法，直到把句子切分完为止。当词库中找不到一个匹配当前字串的词条时，则应删掉该字串尾部的一个字，另外生成K-1个字长的字串，再到词库中查询。若匹配成功，把字长为K-1的字串作为一个词，从句子中切分出去；如果匹配失败，重复以上步骤，生成K-2的字串去词库中匹配，直到成功匹配。

假设一个需要进行切分的字符串：S=其中(i=1,2,3,…,n)代表单个汉字字符，字典中最长的词字长为i，以i字长进行第一次切分，如成功匹配，结果如下：

S=，={}，={}

如果匹配失败，则以i-1字长进行再一次匹配，如果匹配成功，则结果如下：

S=，={}，={}以此类推，将切分出来后，再同样递归处理。

最大匹配算法的特点是“长词优先”，与普通匹配相比，可以很好地提高分词速率。

提取标签信息

我们需要在分词步骤完成后，从这些词中找到最能描述电影的标签，也就是提取出文章中的关键词。我们用TF-IDF来统计评估一个词对于一篇文章的重要程度。

具体实现方法为：

(1)计算词频

词频（TF）=某个词在文章中的出现次数

为了防止同一个词语在长文件里可能会比短文件有更高的词频，它通常会被归一化为：

词频（TF）=某个词在文章中的出现次数/文章的总词数

(2)计算逆文档频率

这时，需要一个语料库（corpus），用来模拟语言的使用环境

逆文档频率（IDF）=，其中，语料库的文档总数是针对每部电影所爬取的文档总数。显然，如果一个词越常见，那么分母就越大，逆文档频率就越小，趋近于0。为了避免分母为0的情况出现，所以分母要进行加1操作。

(3)计算TF-IDF

TF-IDF=词频(TF)逆文档频率(IDF)

可以看到，TF-IDF与一个词在文档中的出现次数成正比，与该词在整个语料库中出现的次数成反比。所以，计算出文档每个词的TF-IDF的值，然后按照降序排列，取排在最前面的个词，即为提取出的电影标签。

字幕图片识别：

这一部分我们用OCR识别技术进行视频中字幕的提取。

(1) 通过对文字事件的检测，对视频帧进行采样，得到静态的、彩色图像，然后从这些彩色图像中提取文字区域。

(2) 提取出文字区域后，将图像交给OCR系统进行处理。首先是对图像进行预处理去噪，将原图像转为二值图像。得到二值图像后，由于现在的图像是一个整体，所以我们需要从整体图像中识别出单个汉字。先利用文字的行与行之间存在的一定的空隙对整体进行行切分，再当行切分结束后，需要把文本行切分为单个字。在字切分中，从左向右搜索每行文字单字的左右界，切分出单字或标点符号。对汉字文本行来说，由于存在左右分离字、宽窄字，加上行中经常混有英文、数字、符号和字间污点干扰，使得字切分比行切分困难得多。所以字切分大致分为两个过程，首先是求出文字、符号或部件的左右界；其次是合并部件为完整的文本汉字。从而完成汉字的切分。

标引：

在确定好电影的标签之后，我们需要按照电影语义标签规范文档对每一个电影视频数据流进行实时标引。

结合图3，基于关键词的主题网络爬虫

由于我们每次是对特定的电影进行标引，所以没有必要从网上下载所有的网页。因此，我们采用主题网络爬虫算法，能够只爬取那些与电影主题相关的页面。

主题网络爬虫算法的基本步骤是：

a)网页抓取。选择一个与需要爬取的电影高度相关的URL种子作为算法的输入，通过直接向网站服务器发出请求的方式将网页抓取下来并保存在本地或是网络存储器中。

b)URL提取。它主要是将网页上用HTML语言表示的地址信息都提取出来，将相对地址转化为绝对地址，并把它们插入到URL队列中。

c)网页内容提取。这个过程主要是用来将网页的文本保存在数据库中。由于网页的编码不统一，我们需要在相应报文头部的Charset字段中取得网页的编码，然后使用这种编码格式来进行解码。如果没有取得编码格式，使用默认编码来进行解码。

d)URL筛选。通过分析响应中的Content-Type字段，通常这个字段会反应文件的类型。如“text/html”一般代表html文件，而“image/gif”则代表gif文件。通过这个步骤，可以将上一步提取出来的一些没有多大意义的地址过滤掉，如一些明显的广告信息、不相关的图片和媒体文件等，减少无关页面的下载。

e)重复上述步骤，获得更多的主题相关的结果。

结合图4，由于自动标引系统需要完成自动标引、自动更新的功能，我们设计出自动标引系统架构如图4所示，它由如下4个方面组成。

(1)用户与标引系统的交互接口：电影自动标引系统通过该接口收集用户的基本信息和行为记录，同时，用户可以通过该交互接口获取个性的标签推荐结果。

(2)用户行为数据库：这个数据库用于存储用户在使用广电和移动端的各种行为记录，例如播放记录、浏览记录、具体时间长短与播放时段，然后进行降噪和归一化处理后变成可供深度挖掘的原始数据。

(3)终端用户：在终端设置用户关联账号，用户可以登录播放电影视频的网络平台进行电影点播，可以随时随地获得心仪的节目推荐和节目预告。在用户行为收集方面，数据不仅仅来源于点击本身，同时，用户参与互动、评价等内容也是获取用户个性化信息的关键组成部分。利用语义分析等技术处理用户的主观评价数据，不仅可以给电影加上带有用户情感色彩的标签，更可以给用户带来更为准确的电影推荐。

网络平台及字幕识别提取标签信息：由本系统的标签提取方式可知，标签库的自动更新也可以通过网络平台及字幕识别的方式，通过对豆瓣网、时光网等网络平台或是微博、微信、空间、人人等社交平台24小时网络信息的获取可以自动提取并更新标签。

在信息资源爆炸的时代下，使观众在海量的内容中迅速检索到自己喜爱的电影。并且该系统所带来的技术成果可以直接应用到电影市场之中，例如联合电影院线进行科学排片，为观众提供电影排序、分类、推荐等服务。电影各大网站和影评机构也可以通过电影的标签来评估电影的内容和观众对电影的评价。此外，电影系统里对标签的管理和分类，可以满足电影制作方的需求，帮助其组建专业有经验的拍摄团队。

本发明中，(1)通过制定统一的电影语义标签规范框架，我们能够在庞大的信息中快速找到有用的电影内容信息，实现网络信息资源的“个性化按内容主动服务”。有了统一的标引标准，利于媒体资料的交换与管理。

(2)矢量化标签增强标签的可变性和适应性。针对每一个标签分量，如果它是静态的，仅在提供管理员权限的条件下才可进行修改；而对于动态标签，除在提供管理员权限的条件下进行修改，还可以对其进行24h的自动更新等操作，能实现不改变框架直接更新标签，使标签具有自适应性。

(3) 标签库能实现24小时自动更新功能。

(4) 本系统实现跨平台开发，为多种终端提供相应的开放接口，支持windows、ios、android、linux操作系统。

至少可以达到以下有益效果：实现为电影资源自动添加和更新标签，解决电影资源的管理问题，对电影资源进行科学、有效的分类和描述，提供电影信息检索的基础，解决电影资源的共享问题，实现网络信息资源的“个性化按内容主动服务”的优点，克服人工标引成本很高、标引速度慢且不适用于在线实时数据信息的缺点，实现对数量大、种类多、动态性强的电影信息进行全面、准确、高效地标引的优点。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.电影标签自动标引方法，其特征在于，包括以下步骤：

生成电影语义标签并制定电影语义元数据规范框架；

建立电影自动标引系统，电影自动标引系统根据电影语义元数据规范框架生成电影传输特征信息语义标签向量代码，并填充到电影语义标签库。

2.根据权利要求1所述的电影标签自动标引方法，其特征在于，步骤a中电影语义标签为矢量标签，具体为描述电影特征信息的n维向量，所述n是向量的维度，反映了描述信息的完备程度，为标签分量。

3.根据权利要求1所述的电影标签自动标引方法，其特征在于，所述电影语义元数据规范框架包括一级标题、二级标题和电影描述。

4.根据权利要求所述1所述的电影标签自动标引方法，其特征在于，所述步骤b中，建立电影自动标引系统包括实现电影自动标引和实现标签库自动更新。

5.根据权利要求4所述的电影标签自动标引方法，其特征在于，所述实现电影自动标引包括以下步骤：

b4.标签选择；

b5.确定标签；

b6.自动标引。

6.根据权利要求5所述的电影标签自动标引方法，其特征在于，步骤b1具体为：

b15.重复步骤b11-b14。

7.根据权利要求5所述的电影标签自动标引方法，其特征在于，所述步骤b2中，所述中文分词采用最大长度匹配法，具体包括:

8.根据权利要求5所述的电影标签自动标引方法，其特征在于，所述步骤b3中，根据关键词提取标签信息主要包括：

b32.计算逆文档频率IDF，所述逆文档频率的计算公式为：

b33.计算TF-IDF，计算公式为：TF-IDF=词频(TF)逆文档频率(IDF)，计算出每个词的TF-IDF的值，按照降序排列，取排在最前面的词，即为提取出的电影标签；

所述字幕识别提取标签信息包括：

9.一种基于权利要求8所述电影标签自动标引方法的自动标引系统，其特征在于，包括用户与标引系统的交互接口、用户行为数据库、标签库、电影推荐系统、用户终端和网络平台；