CN105554519A - Epg信息解析方法及系统 - Google Patents

Epg信息解析方法及系统 Download PDF

Info

Publication number
CN105554519A
CN105554519A CN201510991521.2A CN201510991521A CN105554519A CN 105554519 A CN105554519 A CN 105554519A CN 201510991521 A CN201510991521 A CN 201510991521A CN 105554519 A CN105554519 A CN 105554519A
Authority
CN
China
Prior art keywords
epg information
feature
information
classification
epg
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510991521.2A
Other languages
English (en)
Other versions
CN105554519B (zh
Inventor
李鹏
陆承恩
周鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KUYUN INTERACTIVE TECHNOLOGY Ltd
Original Assignee
KUYUN INTERACTIVE TECHNOLOGY Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KUYUN INTERACTIVE TECHNOLOGY Ltd filed Critical KUYUN INTERACTIVE TECHNOLOGY Ltd
Priority to CN201510991521.2A priority Critical patent/CN105554519B/zh
Publication of CN105554519A publication Critical patent/CN105554519A/zh
Application granted granted Critical
Publication of CN105554519B publication Critical patent/CN105554519B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8126Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
    • H04N21/8133Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts specifically related to the content, e.g. biography of the actors in a movie, detailed information about an article seen in a video program

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种EPG信息解析方法及系统,该方法包括以下步骤:基于多条EPG信息和与之对应的类别信息,采用条件随机场模型进行学习,以获得与所述EPG信息的特征相关的解析模型;提取当前EPG信息的特征;根据提取的特征,使用所述解析模型进行条件随机场解析,以获得当前EPG信息对应的类别信息。本发明提供的EPG信息解析方法及系统,不仅解析效率高,而且解析正确率高,单字符正确率可达99.9%,单句正确率可达98.5%。

Description

EPG信息解析方法及系统
技术领域
本发明属于广播电视播出系统技术领域,具体涉及一种EPG信息解析方法及系统。
背景技术
电子节目指南(electricalprogramguide,简称EPG)已成为数字电视的重要标志,是观众进入数字电视和交互式网络电视(简称IPTV)的门户。EPG系统可向用户提供一种容易使用、界面友好、快速访问所关注节目的方式,不仅能够使用户方便地找到自己喜欢的节目,而且还能看到一个或者多个频道甚至所有频道上近期将播放的节目。
EPG系统处理的有关节目信息称之为EPG信息,其包括以下类型信息:节目名称、节目副标题、栏目名称、节目分类、集数和总集数等。由于EPG信息是否各个电视台产生或者说从各个网站上爬取,因此,EPG信息的文字风格和排列方式大不相同,是一种不规则的数据。为此,现有技术中一般采用人为方式进行解析,不仅解析效率低,而且准确率低。
因此,如何针对不规则的数据进行准确解析EPG信息中的多种类别是目前亟待解决的问题之一。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一,提出了一种EPG信息解析方法及系统,不仅解析效率高,而且解析正确率高,单字符正确率可达99.9%,单句正确率可达98.5%。
为解决上述问题之一,本发明提供了一种EPG信息解析方法,所述EPG信息包括多种类别,包括以下步骤:基于多条EPG信息和与之对应的类别信息,采用条件随机场模型进行学习,以获得与所述EPG信息的特征相关的解析模型;提取当前EPG信息的特征;根据提取的特征,使用所述解析模型进行条件随机场解析,以获得当前EPG信息对应的类别信息。
优选地,所述类别信息和所述EPG信息的对应关系如下:每种类别、所有的标点符号和每个预设字分别对应一个字母或者字母组合;EPG信息中的属于同一类别的每个字符标注为该类别对应的字母或字母组合,每个标点符号和预设字标注为对应的字母或字母组合,从而根据EPG信息形成与之对应的由字母串接形成的类别信息。
具体地,所述特征包括:所述EPG信息中的字符本身和字符位置特征。
优选地,所述特征还包括词性特征。
优选地,所述提取当前EPG信息的特征,包括:对当前EPG信息进行分词;基于分词结果进行词性识别,以提取出所述词性特征。
优选地,采用隐马尔可夫模型或者条件随机场模型对所述信息进行分词;和/或,采用隐马尔可夫模型或者条件随机场模型对分词结果进行词性识别。
本发明还提供一种EPG信息解析系统,包括:解析模型建立模块,用于基于多条EPG信息和与之对应的类别信息,采用条件随机场模型进行学习,以获得与所述EPG信息的特征相关的解析模型;提取模块,用于提取当前EPG信息的特征;解析模块,用于根据提取的特征,使用所述解析模型进行条件随机场解析,以获得当前EPG信息对应的类别信息。
优选地,所述类别信息和EPG信息的对应关系如下:每种类别、所有的标点符号和每个预设字分别对应一个字母或者字母组合;EPG信息中的属于同一类别的每个字符标注为该类别对应的字母或字母组合,每个标点符号和预设字标注为对应的字母或字母组合,从而根据EPG信息形成与之对应的由字母串接形成的类别信息。
具体地,所述特征包括:所述EPG信息中的字符本身和字符位置特征。
优选地,所述特征还包括词性特征。
优选地,所述提取模块包括:分词子模块,用于对当前EPG信息进行分词;词性识别子模块,用于基于分词结果进行词性识别,以提取出所述词性特征。
优选地,所述分词子模块,用于采用隐马尔可夫模型或者条件随机场模型对所述信息进行分词;和/或,所述词性识别子模块,采用隐马尔可夫模型或者条件随机场模型对分词结果进行词性识别。
本发明具有以下有益效果:
本发明提供的EPG信息解析方法及系统,针对各个电视台提供或者从各种网站上爬取的文字风格和排列方式大不相同的EPG信息,均可采用条件随机场进行EPG信息解析,获得每条EPG信息的分类信息,这与现有技术中采用人为解析方式相比,不仅解析效率高,而且解析正确率高,单字符正确率可达99.9%,单句正确率可达98.5%。其中,单字符正确率是指解析正确的字符个数占整个测试集字符个数的百分比,单句正确率是指解析正确的EPG信息条数占整个测试集EPG信息条数的百分比。
附图说明
图1为本发明实施例提供的EPG信息解析方法的流程图;
图2为图1中步骤S2的流程图;
图3为本发明实施例提供的EPG信息解析系统的原理框图;
图4为图3中提取模块的原理框图。
具体实施方式
为使本领域的技术人员更好地理解本发明的技术方案,下面结合附图来对本发明提供的EPG信息解析方法及系统进行详细描述。
实施例1
图1为本发明实施例提供的EPG信息解析方法的流程图,请参阅图1,EPG信息包括多种类别,具体地,多种类别包括但不限于:1,节目名称,指具体的节目名称,举例:天龙八部、快乐大本营等;2,栏目名称或剧场名称,举例:午夜剧场、午间剧场等;3,节目分类,指节目的具体表现形式,举例:电影、电视剧等;4,集数,指节目当前播放的集数;5,总集数,指节目的总集数;6,季/部,指第几季或第几部,例如,第一季;7,时间信息,指具体播出时间,例如:2015-12-09;8,区域信息,指节目由那个区域制作,例如,大陆、香港、台湾等;9,人物信息,指节目中出现了那些重要的人物,例如,霍建华版、胡军版;10,剪辑信息,指剪辑版本,例如,剪辑版、精装版;11,播放状态,例如,转播、直播、重播等。
该EPG信息解析方法,包括以下步骤:
S1,基于多条EPG信息和与之对应的类别信息,采用条件随机场模型(ConditionalRandomField,简称CRF)进行学习,以获得与EPG信息的特征相关的解析模型。也就是说,多条EPG信息和与之对应的类别信息作为样本集,以供学习来获得上述解析模型。
举例说明:若一条EPG信息为“钻石剧场:天龙八部胡军版1/45”,由于“钻石剧场”所属类别为“栏目名称”,“天龙八部”所属类别为“节目名称”,“胡军版”所属类型为“人物信息”,“1”所属类型为“集数”,“45”所属类型为“总集数”,因此,该EPG信息对应的类别信息可以但不限于:“栏目名称节目名称人物信息集数/总集数”。
在本实施例中,优选地,类别信息和EPG信息的对应关系如下:每种所述类别、所有的标点符号和每个预设字分别对应一个字母或者字母组合;所述EPG信息中的属于同一类别的每个字符标注为该类别对应的字母或字母组合,每个标点符号和预设字标注为对应的字母或字母组合。基于该对应关系,即可根据EPG信息获得与之对应的类别信息,该类别信息具体为:由字母串接形成的字符串。
举例说明:类别、标点符号和预设字与字母和字母组合的对应关系见下表:
其中,标点符号包括“空格”、“-”、“/”和“:”等的所有标点符号。“版”为预设字。
在此情况下,若一条EPG信息为“钻石剧场:天龙八部胡军版1/45”,则由该EPG信息标注形成的与之对应的类别信息为“CCCCMPPPPMNNVMEMES”。
具体地,EPG信息的特征包括:EPG信息中的字符本身和字符位置特征。
采用字符本身特征的原因为:类别与字符本身强相关,例如,当字符为阿拉伯数字或者中文数字时,该字符的类别很大可能是集数或者总集数;标点符号本身就是一种类别;大陆、韩国等区域名很大程度是区域信息;剪辑信息所能列举的字符相当有限。
采用字符位置特征的原因为:类别与字符位置相关,例如,2015-12-09,虽然大部分字符为数字,但是通过符号“-”以时间的固定格式连接,因此,每个字符的类别为时间信息;同样的出现在“/”之后的数字很大可能是总集数。
S2,提取当前EPG信息的特征。
具体地,该步骤中需要提取的当前EPG信息的特征与步骤S1中获得的与解析模型相关的特征相对应。
S3,根据提取的特征,基于在步骤S1中获得的条件随机场模型进行条件随机场解析,以获得当前EPG信息对应的类别信息。
由上可知,本发明实施例提供的EPG信息解析方法,针对各个电视台提供或者从各种网站上爬取的文字风格和排列方式大不相同的EPG信息,均可采用条件随机场进行EPG信息解析,获得每条EPG信息的分类信息,这与现有技术中采用人为解析方式相比,不仅解析效率高,而且解析正确率高,单字符正确率可达99.9%,单句正确率可达98.5%。其中,单字符正确率是指解析正确的字符个数占整个测试集字符个数的百分比,单句正确率是指解析正确的EPG信息条数占整个测试集EPG信息条数的百分比。
在本实施例中,优选地,所述EPG信息的特征还包括词性特征,词性特征包括但不限于:人名、地名和数量词。
选择词性特征作为EPG信息的特征的原因为:词性特征能够帮助解析该字符的类别,例如,字符串经过分词后展现出的词性特征为数量词时,该字符的类别很有可能为集数、总集数、季/部;再如,若词性特征为人名时,该字符的类别很有可能为人物信息;又如,若词性特征为地名时,该字符的类别很有可能为区域信息。
在EPG信息的特征还包括词性特征的情况下,优选地,如图2所示,步骤S2包括:
S21,对当前EPG信息进行分词。
具体地,可采用隐马尔可夫模型(HiddenMarkovModel,简称HMM)或者条件随机场模型对所述信息进行分词。
S22,基于分词结果进行词性识别,以提取出所述词性特征。
具体地,采用隐马尔可夫模型或者条件随机场模型对分词结果进行词性识别。
实施例2
图3为本发明实施例提供的EPG信息解析系统的原理框图,请参阅图3,本实施例提供的EPG信息解析方系统,包括:
解析模型建立模块10,用于基于多条EPG信息和与之对应的类别信息,采用条件随机场模型进行学习,以获得与所述EPG信息的特征相关的解析模型。
提取模块11,用于提取当前EPG信息的特征。
解析模块12,用于根据提取的特征,使用所述解析模型进行条件随机场解析,以获得当前EPG信息对应的类别信息。
在本实施例中,类别信息和EPG信息的对应关系如下:预设每种类别、所有的标点符号和每个预设分别对应一个字母或者字母组合;EPG信息中的属于同一类别的每个字符标注为该类别对应的字母或字母组合,每个标点符号和预设字标注为对应的字母或字母组合。在此情况下,根据EPG信息形成与之对应的类别信息为由字母串接形成的字符串。
具体地,EPG信息的特征包括:EPG信息中的字符本身和字符位置特征。
优选地,EPG信息的特征还包括词性特征,词性特征包括但不限于:人名、地名和数量词。
在EPG信息的特征还包括词性特征的情况下,优选地,如图4所示,提取模块11还包括:
分词子模块111,用于对当前EPG信息进行分词;
词性识别子模块112,用于基于分词结果进行词性识别,以提取出所述词性特征。
更优选地,分词子模块111,用于采用隐马尔可夫模型或者条件随机场模型对所述信息进行分词。
词性识别子模块112,用于采用隐马尔可夫模型或者条件随机场模型对分词结果进行词性识别。
需要说明的是,由于本发明实施例提供的EPG信息解析系统是实施例1提供的EPG信息解析方法对应的产品,因此,在此不再详述,具体内容参见实施例1。
由上可知,本发明实施例提供的EPG信息解析系统,针对各个电视台提供或者从各种网站上爬取的文字风格和排列方式大不相同的EPG信息,均可采用条件随机场进行EPG信息解析,获得每条EPG信息的分类信息,这与现有技术中采用人为解析方式相比,不仅解析效率高,而且解析正确率高,单字符正确率可达99.9%,单句正确率可达98.5%。其中,单字符正确率是指解析正确的字符个数占整个测试集字符个数的百分比,单句正确率是指解析正确的EPG信息条数占整个测试集EPG信息条数的百分比。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

Claims (12)

1.一种EPG信息解析方法,所述EPG信息包括多种类别,其特征在于,包括以下步骤:
基于多条EPG信息和与之对应的类别信息,采用条件随机场模型进行学习,以获得与所述EPG信息的特征相关的解析模型;
提取当前EPG信息的特征;
根据提取的特征,使用所述解析模型进行条件随机场解析,以获得当前EPG信息对应的类别信息。
2.根据权利要求1所述的EPG信息解析方法,其特征在于,所述类别信息和所述EPG信息的对应关系如下:
每种所述类别、所有的标点符号和每个预设字分别对应一个字母或者字母组合;所述EPG信息中的属于同一类别的每个字符标注为该类别对应的字母或字母组合,每个标点符号和预设字标注为对应的字母或字母组合。
3.根据权利要求1所述的EPG信息解析方法,其特征在于,所述特征包括:
所述EPG信息中的字符本身和字符位置特征。
4.根据权利要求3所述的EPG信息解析方法,其特征在于,所述特征还包括词性特征。
5.根据权利要求4所述的EPG信息解析方法,其特征在于,所述提取当前EPG信息的特征,包括:
对当前EPG信息进行分词;
基于分词结果进行词性识别,以提取出所述词性特征。
6.根据权利要求5所述的EPG信息解析方法,其特征在于,采用隐马尔可夫模型或者条件随机场模型对所述信息进行分词;和/或
采用隐马尔可夫模型或者条件随机场模型对分词结果进行词性识别。
7.一种EPG信息解析系统,其特征在于,包括:
解析模型建立模块,用于基于多条EPG信息和与之对应的类别信息,采用条件随机场模型进行学习,以获得与所述EPG信息的特征相关的解析模型;
提取模块,用于提取当前EPG信息的特征;
解析模块,用于根据提取的特征,使用所述解析模型进行条件随机场解析,以获得当前EPG信息对应的类别信息。
8.根据权利要求7所述的EPG信息解析系统,其特征在于,所述类别信息和EPG信息的对应关系如下:
每种类别、所有的标点符号和每个预设字分别对应一个字母或者字母组合;EPG信息中的属于同一类别的每个字符标注为该类别对应的字母或字母组合,每个标点符号和预设字标注为对应的字母或字母组合,从而根据EPG信息形成与之对应的由字母串接形成的类别信息。
9.根据权利要求7所述的EPG信息解析系统,其特征在于,所述特征包括:
所述EPG信息中的字符本身和字符位置特征。
10.根据权利要求9所述的EPG信息解析系统,其特征在于,所述特征还包括词性特征。
11.根据权利要求10所述的EPG信息解析系统,其特征在于,所述提取模块包括:
分词子模块,用于对当前EPG信息进行分词;
词性识别子模块,用于基于分词结果进行词性识别,以提取出所述词性特征。
12.根据权利要求11所述的EPG信息解析系统,其特征在于,所述分词子模块,用于采用隐马尔可夫模型或者条件随机场模型对所述信息进行分词;和/或
所述词性识别子模块,采用隐马尔可夫模型或者条件随机场模型对分词结果进行词性识别。
CN201510991521.2A 2015-12-24 2015-12-24 Epg信息解析方法及系统 Expired - Fee Related CN105554519B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510991521.2A CN105554519B (zh) 2015-12-24 2015-12-24 Epg信息解析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510991521.2A CN105554519B (zh) 2015-12-24 2015-12-24 Epg信息解析方法及系统

Publications (2)

Publication Number Publication Date
CN105554519A true CN105554519A (zh) 2016-05-04
CN105554519B CN105554519B (zh) 2019-02-22

Family

ID=55833424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510991521.2A Expired - Fee Related CN105554519B (zh) 2015-12-24 2015-12-24 Epg信息解析方法及系统

Country Status (1)

Country Link
CN (1) CN105554519B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004012101A1 (ja) * 2002-07-30 2004-02-05 Sony Corporation キーワードの自動抽出装置及び方法、記録媒体、並びにプログラム
CN1968378A (zh) * 2005-11-18 2007-05-23 中央电视台 中文epg节目单数据的编辑方法和装置
CN103164471A (zh) * 2011-12-15 2013-06-19 盛乐信息技术(上海)有限公司 视频文本标签的推荐方法及系统
CN103309846A (zh) * 2013-06-26 2013-09-18 北京云知声信息技术有限公司 一种自然语言信息的处理方法及装置
CN104809218A (zh) * 2015-04-30 2015-07-29 北京奇艺世纪科技有限公司 一种ugc视频分类方法及装置
CN105072457A (zh) * 2015-08-17 2015-11-18 无锡天脉聚源传媒科技有限公司 一种处理电视节目图片的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004012101A1 (ja) * 2002-07-30 2004-02-05 Sony Corporation キーワードの自動抽出装置及び方法、記録媒体、並びにプログラム
CN1968378A (zh) * 2005-11-18 2007-05-23 中央电视台 中文epg节目单数据的编辑方法和装置
CN103164471A (zh) * 2011-12-15 2013-06-19 盛乐信息技术(上海)有限公司 视频文本标签的推荐方法及系统
CN103309846A (zh) * 2013-06-26 2013-09-18 北京云知声信息技术有限公司 一种自然语言信息的处理方法及装置
CN104809218A (zh) * 2015-04-30 2015-07-29 北京奇艺世纪科技有限公司 一种ugc视频分类方法及装置
CN105072457A (zh) * 2015-08-17 2015-11-18 无锡天脉聚源传媒科技有限公司 一种处理电视节目图片的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王安慧: "家庭网络环境中的EPG智能推荐技术研究与实现", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *

Also Published As

Publication number Publication date
CN105554519B (zh) 2019-02-22

Similar Documents

Publication Publication Date Title
US9788060B2 (en) Methods and systems for aggregation and organization of multimedia data acquired from a plurality of sources
US8374845B2 (en) Retrieving apparatus, retrieving method, and computer program product
US8457472B2 (en) Method and apparatus for segmenting recorded news program according to topics
CN107391499A (zh) 自动导入翻译方法、文字显示终端及计算机可读存储介质
CN104798346A (zh) 使广播媒体相关电子消息传送丰富
CN110796140B (zh) 一种字幕检测方法和装置
CN106792069A (zh) 多媒体文件播放方法及装置
KR20110062567A (ko) 비디오 스크랩을 이용한 비디오 콘텐츠 요약 방법 및 장치
US20150356353A1 (en) Method for identifying objects in an audiovisual document and corresponding device
US20190095529A1 (en) Method and apparatus for generating title and keyframe of video
CN113038153A (zh) 金融直播违规检测方法、装置、设备及可读存储介质
US20090083227A1 (en) Retrieving apparatus, retrieving method, and computer program product
CN103455572A (zh) 获取网页中影视主体的方法及装置
CN107622046A (zh) 一种根据关键词抽取文本摘要的算法
EP2573688A1 (en) Estimation apparatus, estimation method, and program
Salmon et al. An Effortless Way To Create Large-Scale Datasets For Famous Speakers.
CN105554519A (zh) Epg信息解析方法及系统
CN103838739A (zh) 一种搜索引擎中纠错词的检测方法及系统
CN102007764A (zh) 存储和显示广播内容的方法及其设备
CN104504021A (zh) 数据匹配方法及装置
JP4755122B2 (ja) 画像辞書生成方法及び装置及びプログラム
Stein et al. From raw data to semantically enriched hyperlinking: Recent advances in the LinkedTV analysis workflow
CN102723067A (zh) 一种字符显示方法和装置
Series Artificial intelligence systems for programme production and exchange
Zayene et al. Semi-automatic news video annotation framework for arabic text

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190222