CN110110252A - 一种视听节目识别方法、装置及存储介质 - Google Patents

一种视听节目识别方法、装置及存储介质 Download PDF

Info

Publication number
CN110110252A
CN110110252A CN201910416413.0A CN201910416413A CN110110252A CN 110110252 A CN110110252 A CN 110110252A CN 201910416413 A CN201910416413 A CN 201910416413A CN 110110252 A CN110110252 A CN 110110252A
Authority
CN
China
Prior art keywords
data
data set
content
partitioned
web
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910416413.0A
Other languages
English (en)
Other versions
CN110110252B (zh
Inventor
白冰
关靖霖
李国华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bo Hui Science And Technology Co Ltd Of Beijing
Original Assignee
Bo Hui Science And Technology Co Ltd Of Beijing
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bo Hui Science And Technology Co Ltd Of Beijing filed Critical Bo Hui Science And Technology Co Ltd Of Beijing
Priority to CN201910416413.0A priority Critical patent/CN110110252B/zh
Publication of CN110110252A publication Critical patent/CN110110252A/zh
Application granted granted Critical
Publication of CN110110252B publication Critical patent/CN110110252B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请提供了一种视听节目识别方法、装置及存储介质,该方法包括获取目标网站的网页数据,将网页数据分解为多组数据集,多组数据集包括分区数据集,该分区数据集为网页数据中的分区节点数据集合;对分区数据集进行布局特征检查,判断分区数据集中的内容是否符合布局特征要求;若分区数据集中的内容符合布局特征要求,则确定目标网站中包含视听节目,具有准确率高的优点。

Description

一种视听节目识别方法、装置及存储介质
技术领域
本申请涉及互联网监测技术领域,主要涉及一种视听节目识别方法、装置及存储介质。
背景技术
目前,判断互联网网站是否包含视听节目的方式都是通过关键词对比来进行判别,然而通过关键词进行对比实现判别的方式存在着准确率低的问题。
发明内容
本申请的目的在于提供一种视听节目识别方法、装置及存储介质,用于解决现有技术中关键词对比存在的准确率低的问题。
为了实现上述目的,本申请提供了以下技术方案如下:
第一方面:本申请提供了一种视听节目识别方法,所述方法包括:获取目标网站的网页数据,将所述网页数据分解为多组数据集,所述多组数据集包括分区数据集,所述分区数据集为所述网页数据中的分区节点数据集合;对所述分区数据集进行布局特征检查,判断所述分区数据集中的内容是否符合布局特征要求;若所述分区数据集中的内容符合布局特征要求,则确定所述目标网站中包含视听节目。
上述方案设计的方法,通过对分区数据集进行布局特征检查,判断其是否满足特定的布局特征要求,使得对网页中是否包含视听节目的识别更加准确。
在第一方面的可选实施方式中,所述对所述分区数据集进行布局特征检查,判断所述分区数据集中的内容是否符合布局特征要求,包括:去除所述分区数据集中HTML标签内容;提取所述分区数据集中每个分区节点的位置信息,并根据所述位置信息以及所述位置信息对应的分区节点构建布局特征,所述布局特征包括特征位置;对所述特征位置中包含预设格式的数据信息进行标记;判断所述分区数据集的标记数据个数占所述分区数据集的总体个数的比率是否在预设的阈值范围内;若是,则所述分区数据集中的内容符合布局特征要求。
上述方案设计的方法,通过对四个特征位置布局的标记数据进行统计来进行视听节目的判断,使得对视听节目的识别更加准确。
在第一方面的可选实施方式中,在所述将所述网页数据分解为多组数据集之后,所述方法还包括:所述多组数据集还包括链接数据集,所述链接数据集为所述网页数据中的链接节点数据集合;对所述链接数据集进行链接文本特征检查,判断所述链接数据集中的内容是否符合链接文本特征要求;若所述链接数据集中的内容符合链接文本特征要求,则确定所述目标网站中包含视听节目。
上述方案设计的方法,在布局特征检查的基础上加入链接文本特征检查,增加了特征检查方式,使得对网页数据内视听节目的识别更加准确。
在第一方面的可选实施方式中,所述对所述链接数据集进行链接文本特征检查,判断所述链接数据集中的内容是否符合链接文本特征要求,包括:去除所述链接数据集中HTML标签内容;对所述链接数据集中剩余的文本内容进行分词,根据分词后的文本内容建立词典;获取所述词典中的词语出现预设判别词的统计结果,所述统计结果包括词频、出现个数以及对应词语的长度;判断所述统计的结果是否在预设的阈值范围内,若是,则所述链接数据集中的内容符合链接文本特征要求。
上述方案设计的方法,描述了实现链接文本特征检查的具体方式,通过对网页数据中词语出现判别词的统计结果来进行特征判断,使得对视听节目的判断更加准确。
在第一方面的可选实施方式中,在判断所述分区数据集中的内容是否符合布局特征要求之后,所述方法还包括:若所述分区数据集中的内容不符合布局特征要求,则对所述网页数据的所有内容进行视频文件检查以及播放器检查,判断所述网页数据的所有内容是否符合视频文件检查要求以及播放器检查要求;若所述网页数据的所有内容符合视频文件检查要求和/或所述网页数据的所有内容符合播放器检查要求,则确定所述目标网站中包含视听节目。
上述方案设计的方法,在布局特征要求不符合时,则进行对网页数据的所有内容进行后续的判断,使得判断网页是否包含视听节目的准确率大大提高,并且后续方法具有极强的通用性。
在第一方面的可选实施方式中,对网页数据的所有内容进行视频文件检查,判断所述网页数据的所有内容是否符合视频文件检查要求,包括:对所述网页数据所有内容的各个节点进行视频文件检查;判断每个节点内容是否包含视频类型的文件;若存在任意一个节点内容包含视频类型的文件,则所述网页数据的所有内容符合视频文件检查要求。
在第一方面的可选实施方式中,对网页数据的所有内容进行播放器检查,判断所述网页数据的所有内容是否符合播放器检查要求,包括:对所述网页数据所有内容逐条进行播放器检查;判断所述网页数据所有内容中是否存在播放器链接和/或引入播放器文件;若存在,则所述网页数据的所有内容符合播放器检查要求。
在第一方面的可选实施方式中,在所述对所述分区数据集进行布局特征检查之前,所述方法还包括:判断所述分区数据集是否适用于布局特征检查;若是,则对所述分区数据集进行布局特征检查。
第二方面:本申请提供一种视听节目识别装置,所述装置包括:获取模块,用于获取目标网站的网页数据;分解模块,用于将所述网页数据分解为多组数据集,所述多组数据集包括分区数据集,所述分区数据集为所述网页数据中的分区节点数据集合;检查模块,用于对所述分区数据集进行布局特征检查;判断模块,用于判断所述分区数据集中的内容是否符合布局特征要求;确定模块,用于在所述判断模块所述分区数据集中的内容符合布局特征要求之后,确定所述目标网站中包含视听节目。
上述方案设计的装置,通过对分区数据集进行布局特征检查,判断其是否满足特定的布局特征要求,使得对网页中是否包含视听节目的识别更加准确。
在第二方面的可选实施方式中,所述装置还包括:去除模块,用于去除所述分区数据集中HTML标签内容;提取模块,用于提取所述分区数据集中每个分区节点的位置信息,并根据所述位置信息以及所述位置信息对应的分区节点构建布局特征,所述布局特征包括特征位置;标记模块,用于对所述特征位置中包含预设格式的数据信息进行标记;所述判断模块,还用于判断所述分区数据集的标记数据个数占所述分区数据集的总体个数的比率是否在预设的阈值范围内;所述确定模块,还用于在所述判断模块判断所述分区数据集的标记数据个数占所述分区数据集的总体个数的比率在预设的阈值范围内,确定所述分区数据集中的内容符合布局特征要求。
在第二方面的可选实施方式中,所述多组数据集还包括链接数据集,所述链接数据集为所述网页数据中的链接节点数据集合;所述检查模块,还用于对所述链接数据集进行链接文本特征检查;所述判断模块,还用于判断所述链接数据集中的内容是否符合链接文本特征要求;所述确定模块,还用于在所述判断模块判断所述链接数据集中的内容符合链接文本特征要求时,确定所述目标网站中包含视听节目。
在第二方面的可选实施方式中,所述去除模块,还用于去除所述链接数据集中HTML标签内容;分词模块,用于对所述链接数据集中剩余的文本内容进行分词;构建模块,用于根据分词后的文本内容建立词典;所述获取模块,还用于获取所述词典中的词语出现预设判别词的统计结果,所述统计结果包括词频、出现个数以及对应词语的长度;所述判断模块,还用于判断所述统计的结果是否在预设的阈值范围内;所述确定模块,还用于在所述判断模块判断所述统计的结果在预设的阈值范围内时,确定所述链接数据集中的内容符合链接文本特征要求。
在第二方面的可选实施方式中,所述检查模块,还用于在所述确定模块确定所述分区数据集中的内容不符合布局特征要求之后,对所述网页数据的所有内容进行视频文件检查以及播放器检查;所述判断模块,还用于判断所述网页数据的所有内容是否符合视频文件检查要求以及播放器检查要求;所述确定模块,还用于在所述判断模块判断所述网页数据的所有内容符合视频文件检查要求和/或所述媒体数据集中的内容符合播放器检查要求时,确定所述目标网站中包含视听节目。
第三方面:本申请提供一种电子设备,包括:处理器,以及分别与处理器连接的存储器和通信模块,所述存储器存储有所述处理器可执行的机器可读指令,所述通信模块用于与外部设备进行通信传输;当所述计算设备运行时,所述处理器执行所述机器可读指令,以执行时执行第一方面、第一方面的任一可选的实现方式中的所述方法。
第四方面:本申请提供一种非暂态计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行第一方面、第一方面的任一可选的实现方式中的所述方法。
第五方面:本申请提供一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行第一方面、第一方面的任一可选的实现方式中的所述方法。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。通过附图所示,本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本申请的主旨。
图1是本申请第一实施例提供的视听节目识别方法第一流程图;
图2是本申请第一实施例提供的视听节目识别方法第二流程图;
图3是本申请第一实施例提供的视听节目识别方法第三流程图;
图4是本申请第一实施例提供的视听节目识别方法第四流程图;
图5是本申请第一实施例提供的视听节目识别方法第五流程图;
图6是本申请第一实施例提供的视听节目识别方法第六流程图;
图7是本申请第一实施例提供的视听节目识别方法第七流程图;
图8是本申请第二实施例提供的视听节目识别装置结构示意图;
图9是本申请第三实施例提供的电子设备结构示意图。
具体实施方式
为使本申请实施方式的目的、技术方案和优点更加清楚,下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本申请一部分实施方式,而不是全部的实施方式。基于本申请中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本申请保护的范围。因此,以下对在附图中提供的本申请的实施方式的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施方式。基于本申请中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本申请保护的范围。
在本申请的描述中,需要理解的是,术语“中心”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本申请中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
在本申请中,除非另有明确的规定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方,或仅仅表示第一特征水平高度小于第二特征。
第一实施例
如图1所示,本申请提供一种视听节目识别方法,该方法包括:
步骤101:获取目标网站的网页数据,将网页数据分解为多组数据集,多组数据集包括分区数据集,该分区数据集为网页数据中的分区节点数据集合,转到步骤103。
步骤103:对该分区数据集进行布局特征检查,判断分区数据集中的内容是否符合布局特征要求,转到步骤105。
步骤105:若分区数据集中的内容符合布局特征要求,则确定目标网站中包含视听节目。
其中,步骤101中获取目标网站的网页数据可为获取目标网站首页的网页数据,也可以不是目标网站首页的网页数据,抓取网页数据的多种方式,例如get方式或post方式等。
另外,步骤101中获取的分区数据集的方式也就是在多组数据集中提取分区节点的数据集,也就是包含特定布局特征的<div>标签及其上下文的信息数据集。
对于步骤103中的布局特征可理解为节点区域中预设的特定位置中的内容。
上述方案设计的方法,通过对分区数据集进行布局特征检查,判断其是否满足特定的布局特征要求,使得对网页中是否包含视听节目的识别更加准确。
可选地,如图2所示,在步骤103中的对该分区数据集进行布局特征检查之前,该方法还包括:
步骤102:判断该分区数据集是否适用于布局特征检查,若是,则转到步骤103。
对于步骤102,其具体可为提取该分区数据集中的每一条数据,获取该<div>标签下的<img>和<a>标签数量,如果<div>中的<img>和<a>标签配对数超过某一个阈值,则认为该分区数据集适用于布局特征检查。
可选地,如图3所示,对于步骤103中的对该分区数据集进行布局特征检查,判断分区数据集中的内容是否符合布局特征要求,包括:
步骤1031:去除分区数据集中的HTML标签内容,转到步骤1032。
步骤1032:提取分区数据集中每个分区节点的位置信息,并根据位置信息以及位置信息对应的分区节点构建布局特征,该布局特征包括特征位置,转到步骤1033。
步骤1033:对特征位置中包含预设格式的数据信息进行标记;判断分区数据集的标记数据个数占分区数据集的总体个数的比率是否在预设的阈值范围内,转到步骤1034。
步骤1034:若分区数据集的标记数据个数占分区数据集的总体个数的比率在预设的阈值范围内,则确定分区数据集中的内容符合布局特征要求。
对于步骤1032中的位置信息可包括与父节点的相对位置信息或者与页面的绝对位置信息。
对于上述步骤1031-1034,其具体方案可通过以下方式实现:
提取每一条<div>中取出HTML后相应的位置信息,并与该<div>构建成字典组。如图4所示,特征包括<div>左上、左下、右上、右下四部分。
对于出现在该<div>的四个位置的内容进行判别,对于包含特定信息的数据进行标记,例如,包含时间格式信息“00:00”或包含描述电视剧剧集的信息“第N集”或者包含某些特定词“N人观看”“N次播放”等。
统计分区数据集中被标记的数据占分区数据集总数据的比率,当比率在预设的阈值范围内的时候,则表示分区数据集中的内容符合布局特征要求,那么该网站就包含了视听节目,也就说明该网站包含了视听节目。
上述方案设计的方法,通过对四个特点位置布局的标记数据进行统计来进行视听节目的判断,使得对视听节目的识别更加准确。
可选地,如图4所示,步骤101中的多组数据集还包括链接数据集,该链接数据集为网页数据中的链接节点数据集合,在步骤101之后,该方法还包括:
步骤107:对链接数据集进行链接文本特征检查,判断链接数据集中的内容是否符合链接文本特征要求,转到步骤109。
步骤109:若链接数据集中的内容符合链接文本特征要求,则确定目标网站中包含视听节目。
这里需要说明的是,在步骤101之后的进行布局特征检查的步骤103-步骤105以及进行链接文本特征检查的步骤107-109的顺序可为以下顺序:可先进行布局特征检查,再进行链接文本特征检查;也可先进行链接文本特征检查,再进行布局特征检查;也可以同时进行布局特征检查和链接文本特征检查。
上述方案设计的方法,在布局特征检查的基础上加入链接文本特征检查,增加了特征检查方式,使得对网页数据内视听节目的识别更加准确。
其中,如图5所示,对于步骤107中的对链接数据集进行链接文本特征检查,判断链接数据集中的内容是否符合链接文本特征要求,包括:
步骤1071:去除链接数据集中的HTML标签内容,转到步骤1073。
步骤1073:对链接数据集中剩余的文本内容进行分词,根据分词后的文本内容建立词典,转到步骤1075。
步骤1075:获取词典中的词语出现预设判别词的统计结果,该统计结果包括词频、出现个数以及对应词语的长度,转到步骤1077。
步骤1077:判断该统计的结果是否在预设的阈值范围内,转到步骤1079。
步骤1079:若该统计的结果在预设的阈值范围内,则确定该链接数据集中的内容符合链接文本特征要求。
对于上述步骤1075,其具体实现方式可为:对词典中出现的词依据判别词进行词频、出现个数以及对应词语的长度的统计,其中判别词可分为两类:
第一类:“电影”、“电视剧”、“直播”、“点播”、“视频”、“片花”、“综艺”、“剧集”、“动漫”、“影视”、“纪录片”、“美剧”、“日剧”、“韩剧”、“港剧”、“脱口秀”、“网络剧”、“花絮”、“片库”以及“预告片”等。
第二类:“电视剧”、“点播”、“直播”、“视频”、“视频”、“预告片”、“视频新闻”、“新闻视频”以及“原创视频”等。
对于步骤1077,其具体可为:对第一类判别词,进行长度、词频以及出现次数进行评估,对于以上3个条件均满足超过阈值要求的,判别为包含视听节目;对于第二类判别词,进行长度和次数进行评估,对于在预设的阈值范围内的,判别为包含视听节目。
上述方案设计的方法,描述了实现链接文本特征检查的具体方式,通过对网页数据中词语出现判别词的统计结果来进行特征判断,使得对视听节目的判断更加准确。
应当理解的是,在其他实施例中,判别词除了上述两类,还可以包括另外类别。
可选地,如图6所示,在步骤107之前,该方法还包括:
步骤106:判断该链接数据集是否适用于链接文本特征检查,若是,则转到步骤107。
对于步骤106,其具体实现方式可为:
提取链接数据集中的每一条数据,判断每一条数据中的<a>标签下是否包含<img>标签,将计算结果保存。如果不包含<img>标签的<a>所占比例超过设定的阈值,那么判定该链接数据集适用于文本特征检查。
可选地,如图7所示,在步骤103判断分区数据集中的内容是否符合布局特征要求之后,该方法包括:
步骤111:若分区数据集中的内容不符合布局特征要求,则对网页数据的所有内容进行视频文件检查以及播放器检查,转到步骤113。
步骤113:判断网页数据的所有内容是否符合视频文件检查要求以及播放器检查要求,转到步骤115。
步骤115:若网页数据的所有内容符合视频文件检查要求和/或网页数据的所有内容符合播放器检查要求,则确定目标网站中包含视听节目。
这里需要说明的是,对于步骤111-115的执行前提可以是:在分区数据集的内容不符合布局特征要求之后;如果方案中包含有链接数据集时,则执行前提可以是,在链接数据集的内容不符合链接文本特征要求以及分区数据集的内容也不符合布局特征要求之后,也就是说在两种情况都不符合要求之后才执行步骤111-步骤115。
上述方案设计的方法,在布局特征要求不符合时,则进行对网页数据的所有内容进行后续的判断,使得判断网页是否包含视听节目的准确率大大提高,并且后续方法具有极强的通用性。
其中,对于判断网页数据的所有内容是否符合视频文件检查要求,包括:
对网页数据所有内容的各个节点进行视频文件检查;判断每个节点内容是否包含视频类型的文件;若存在任意一个节点内容包含视频类型的文件,则网页数据的所有内容符合视频文件检查要求。
对于上述方案,其具体实现方式可如下:
沿DOM树对网页数据所有内容逐个节点检查是否包含mp4,flv,m4v,m3u8,wmv,ts等类型的文件,当存在任意一个节点内容包含上述任意一种类型的文件,则网页数据的所有内容符合视频文件检查要求,则判定该网页包含视听节目。
对于判断网页数据的所有内容是否符合播放器检查要求,包括:
对所述网页数据所有内容逐条进行播放器检查;判断所述网页数据所有内容中是否存在播放器链接和/或引入播放器文件;若存在,则所述网页数据的所有内容符合播放器检查要求。
对于上述方案,其具体实现方式可如下:
沿DOM树对网页数据所有内容逐条检查页面中是否带有video.js或者ckplayer.js等引用,以及,沿DOM树对网页数据所有内容逐条检查页面中带有video标签,source标签(类型相当于video的视频类型),当存在任意一条内容包含上述任意一种类型时,则网页数据的所有内容符合播放器检查要求,则判定该网页包含视听节目。
第二实施例
如图8所示,本申请提供一种视听节目识别装置,该装置包括:
获取模块201,用于获取目标网站的网页数据。
分解模块202,用于将网页数据分解为多组数据集,多组数据集包括分区数据集,该分区数据集为网页数据中的分区节点数据集合。
检查模块203,用于对分区数据集进行布局特征检查。
判断模块204,用于判断分区数据集中的内容是否符合布局特征要求。
确定模块205,用于在判断模块204分区数据集中的内容符合布局特征要求之后,确定目标网站中包含视听节目。
上述方案设计的装置,通过对分区数据集进行布局特征检查,判断其是否满足特定的布局特征要求,使得对网页中是否包含视听节目的识别更加准确。
在第二实施例的可选实施方式中,所述装置还包括:
去除模块206,用于去除分区数据集中HTML标签内容。
提取模块207,用于提取分区数据集中每个分区节点的位置信息,并根据位置信息以及位置信息对应的分区节点构建布局特征,该布局特征包括特征位置。
标记模块208,用于对特征位置中包含预设格式的数据信息进行标记。
判断模块204,还用于判断所述分区数据集的标记数据个数占所述分区数据集的总体个数的比率是否在预设的阈值范围内。
确定模块205,还用于在判断模块204判断分区数据集的标记数据个数占分区数据集的总体个数的比率在预设的阈值范围内,确定分区数据集中的内容符合布局特征要求。
在第二实施例的可选实施方式中,多组数据集还包括链接数据集,该链接数据集为所述网页数据中的链接节点数据集合。
检查模块203,还用于对链接数据集进行链接文本特征检查。
判断模块204,还用于判断链接数据集中的内容是否符合链接文本特征要求。
确定模块205,还用于在判断模块204判断链接数据集中的内容符合链接文本特征要求时,确定目标网站中包含视听节目。
在第二方面的可选实施方式中,去除模块206,还用于去除链接数据集中HTML标签内容。
分词模块209,用于对链接数据集中剩余的文本内容进行分词。
构建模块210,用于根据分词后的文本内容建立词典。
获取模块201,还用于获取词典中的词语出现预设判别词的统计结果,该统计结果包括词频、出现个数以及对应词语的长度。
判断模块204,还用于判断统计的结果是否在预设的阈值范围内。
确定模块205,还用于在判断模块204判断统计的结果在预设的阈值范围内时,确定链接数据集中的内容符合链接文本特征要求。
在第二方面的可选实施方式中,检查模块203,还用于在确定模块确定所述分区数据集中的内容不符合布局特征要求之后,对所述网页数据的所有内容进行视频文件检查以及播放器检查。
判断模块204,还用于判断网页数据的所有内容是否符合视频文件检查要求以及播放器检查要求。
确定模块205,还用于在判断模块204判断网页数据的所有内容符合视频文件检查要求和/或所述媒体数据集中的内容符合播放器检查要求时,确定目标网站中包含视听节目。
第三实施例
如图9所示,本申请提供一种电子设备,包括:处理器301,以及分别与处理器连接的存储器302和通信模块303,存储器302存储有处理器301可执行的机器可读指令,通信模块303用于与外部设备进行通信传输;当所述计算设备运行时,处理器301执行所述机器可读指令,以执行时执行第一实施例、第一实施例的任一可选的实现方式中的所述方法。
本申请提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行第一实施例、第一实施例的任一可选的实现方式中的所述方法。
本申请提供一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行第一实施例、第一实施例的任一可选的实现方式中的所述方法置。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种视听节目识别方法,其特征在于,所述方法包括:
获取目标网站的网页数据,将所述网页数据分解为多组数据集,所述多组数据集包括分区数据集,所述分区数据集为所述网页数据中的分区节点数据集合;
对所述分区数据集进行布局特征检查,判断所述分区数据集中的内容是否符合布局特征要求;
若所述分区数据集中的内容符合布局特征要求,则确定所述目标网站中包含视听节目。
2.根据权利要求1所述方法,其特征在于,所述对所述分区数据集进行布局特征检查,判断所述分区数据集中的内容是否符合布局特征要求,包括:
去除所述分区数据集中的HTML标签内容;
提取所述分区数据集中每个分区节点的位置信息,并根据所述位置信息以及所述位置信息对应的分区节点构建布局特征,所述布局特征包括特征位置;
对所述特征位置中包含的预设格式的数据信息进行标记;
判断所述分区数据集的标记数据个数占所述分区数据集的总体个数的比率是否在预设的阈值范围内;
若是,则确定所述分区数据集中的内容符合布局特征要求。
3.根据权利要求1所述方法,其特征在于,在所述将所述网页数据分解为多组数据集之后,所述方法还包括:
所述多组数据集还包括链接数据集,所述链接数据集为所述网页数据中的链接节点数据集合;
对所述链接数据集进行链接文本特征检查,判断所述链接数据集中的内容是否符合链接文本特征要求;
若所述链接数据集中的内容符合链接文本特征要求,则确定所述目标网站中包含视听节目。
4.根据权利要求3所述方法,其特征在于,所述对所述链接数据集进行链接文本特征检查,判断所述链接数据集中的内容是否符合链接文本特征要求,包括:
去除所述链接数据集中的HTML标签内容;
对所述链接数据集中剩余的文本内容进行分词,根据分词后的文本内容建立词典;
获取所述词典中的词语出现预设判别词的统计结果,所述统计结果包括词频、出现个数以及对应词语的长度;
判断所述统计的结果是否在预设的阈值范围内,若是,则确定所述链接数据集中的内容符合链接文本特征要求。
5.根据权利要求1所述方法,其特征在于,在判断所述分区数据集中的内容是否符合布局特征要求之后,所述方法还包括:
若所述分区数据集中的内容不符合布局特征要求,则对所述网页数据的所有内容进行视频文件检查以及播放器检查,判断所述网页数据的所有内容是否符合视频文件检查要求以及播放器检查要求;
若所述网页数据的所有内容符合视频文件检查要求和/或所述网页数据的所有内容符合播放器检查要求,则确定所述目标网站中包含视听节目。
6.根据权利要求5所述方法,其特征在于,对网页数据的所有内容进行视频文件检查,判断所述网页数据的所有内容是否符合视频文件检查要求,包括:
对所述网页数据所有内容的各个节点进行视频文件检查;
判断每个节点内容是否包含视频类型的文件;
若存在任意一个节点内容包含视频类型的文件,则确定所述网页数据的所有内容符合视频文件检查要求。
7.根据权利要求5所述方法,其特征在于,对网页数据的所有内容进行播放器检查,判断所述网页数据的所有内容是否符合播放器检查要求,包括:
对所述网页数据所有内容逐条进行播放器检查;
判断所述网页数据所有内容中是否存在播放器链接和/或引入播放器文件;
若存在播放器链接和/或引入播放器文件,则确定所述网页数据的所有内容符合播放器检查要求。
8.根据权利要求1所述方法,其特征在于,在所述对所述分区数据集进行布局特征检查之前,所述方法还包括:
判断所述分区数据集是否适用于布局特征检查;
若是,则对所述分区数据集进行布局特征检查。
9.一种视听节目识别装置,其特征在于,所述装置包括:获取模块,用于获取目标网站的网页数据;
分解模块,用于将所述网页数据分解为多组数据集,所述多组数据集包括分区数据集,所述分区数据集为所述网页数据中的分区节点数据集合;
检查模块,用于对所述分区数据集进行布局特征检查;
判断模块,用于判断所述分区数据集中的内容是否符合布局特征要求;
确定模块,用于在所述判断模块所述分区数据集中的内容符合布局特征要求之后,确定所述目标网站中包含视听节目。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1-8中任意一项所述的方法。
CN201910416413.0A 2019-05-17 2019-05-17 一种视听节目识别方法、装置及存储介质 Active CN110110252B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910416413.0A CN110110252B (zh) 2019-05-17 2019-05-17 一种视听节目识别方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910416413.0A CN110110252B (zh) 2019-05-17 2019-05-17 一种视听节目识别方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN110110252A true CN110110252A (zh) 2019-08-09
CN110110252B CN110110252B (zh) 2021-01-15

Family

ID=67490947

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910416413.0A Active CN110110252B (zh) 2019-05-17 2019-05-17 一种视听节目识别方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN110110252B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287264A (zh) * 2020-11-19 2021-01-29 迈普通信技术股份有限公司 一种网页布局方法、装置、电子设备及存储介质
CN112347334A (zh) * 2020-09-22 2021-02-09 中国科学院信息工程研究所 基于主被动结合的音视频网站用户入口标识方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6862731B1 (en) * 2000-09-29 2005-03-01 International Business Machines Corp. Net zeroing for efficient partition and distribution
CN102156737A (zh) * 2011-04-12 2011-08-17 华中师范大学 一种中文网页主题内容的提取方法
CN102332028A (zh) * 2011-10-15 2012-01-25 西安交通大学 一种面向网页的不良Web内容识别方法
US20120290918A1 (en) * 2006-12-08 2012-11-15 Miguel Melnyk Content Adaptation
CN108334508A (zh) * 2017-01-19 2018-07-27 阿里巴巴集团控股有限公司 网页信息的提取方法和装置
CN109168069A (zh) * 2018-09-03 2019-01-08 聚好看科技股份有限公司 一种识别结果分区域显示方法、装置及智能电视
CN109388693A (zh) * 2018-09-13 2019-02-26 武汉斗鱼网络科技有限公司 一种确定分区意图的方法以及相关设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6862731B1 (en) * 2000-09-29 2005-03-01 International Business Machines Corp. Net zeroing for efficient partition and distribution
US20120290918A1 (en) * 2006-12-08 2012-11-15 Miguel Melnyk Content Adaptation
CN102156737A (zh) * 2011-04-12 2011-08-17 华中师范大学 一种中文网页主题内容的提取方法
CN102332028A (zh) * 2011-10-15 2012-01-25 西安交通大学 一种面向网页的不良Web内容识别方法
CN108334508A (zh) * 2017-01-19 2018-07-27 阿里巴巴集团控股有限公司 网页信息的提取方法和装置
CN109168069A (zh) * 2018-09-03 2019-01-08 聚好看科技股份有限公司 一种识别结果分区域显示方法、装置及智能电视
CN109388693A (zh) * 2018-09-13 2019-02-26 武汉斗鱼网络科技有限公司 一种确定分区意图的方法以及相关设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A. STEFANIDIS等: ""Summarizing video datasets in the spatiotemporal domain"", 《 PROCEEDINGS 11TH INTERNATIONAL WORKSHOP ON DATABASE AND EXPERT SYSTEMS APPLICATIONS》 *
叶利华: ""视频标签检测与识别"", 《制造业自动化》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347334A (zh) * 2020-09-22 2021-02-09 中国科学院信息工程研究所 基于主被动结合的音视频网站用户入口标识方法及系统
CN112287264A (zh) * 2020-11-19 2021-01-29 迈普通信技术股份有限公司 一种网页布局方法、装置、电子设备及存储介质
CN112287264B (zh) * 2020-11-19 2022-08-12 迈普通信技术股份有限公司 一种网页布局方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN110110252B (zh) 2021-01-15

Similar Documents

Publication Publication Date Title
US9594730B2 (en) Annotating HTML segments with functional labels
CN102033942B (zh) 基于移动通讯设备终端的标签显示管理方法及其系统
CN111368562B (zh) 翻译图片中的文字的方法、装置、电子设备、及存储介质
CN102137306B (zh) 在电视上显示网页内容的方法及装置
CN109492177B (zh) 一种基于网页语义结构的网页分块方法
US9449114B2 (en) Removing non-substantive content from a web page by removing its text-sparse nodes and removing high-frequency sentences of its text-dense nodes using sentence hash value frequency across a web page collection
CN110110252A (zh) 一种视听节目识别方法、装置及存储介质
CN105760542B (zh) 一种显示控制方法、终端及服务器
CN102065234B (zh) 基于分布式字幕处理系统的字幕制播方法及系统
CN103491116A (zh) 正文相关的结构化数据的处理方法及装置
CN102622448A (zh) 一种数字电视互动应用页面标记语言解析方法
CN112084342A (zh) 试题生成方法、装置、计算机设备及存储介质
CN112650905A (zh) 基于标签的反爬虫方法、装置、计算机设备及存储介质
CN113254136A (zh) 信息推荐弹窗展示方法、装置、设备和计算机可读介质
CN113115098A (zh) 一种视频显示方法及装置
CN112052911A (zh) 识别图像中暴恐内容的方法、装置、电子设备和存储介质
CN114386386A (zh) 基于增量学习的评论生成方法、系统、设备及存储介质
CN112749690B (zh) 一种文本检测方法、装置、电子设备和存储介质
CN105389021A (zh) 输入框信息的显示方法和显示装置
CN110688116A (zh) 一种图像文件的解析方法、装置、设备和可读介质
CN113033682B (zh) 视频分类方法、装置、可读介质、电子设备
CN113312568B (zh) 一种基于HTML源代码和网页快照的Web信息抽取方法与系统
CN115730104A (zh) 直播间处理方法、装置、设备及介质
CN114020907A (zh) 信息抽取方法、装置、存储介质与电子设备
CN103530289A (zh) 网页显示方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant