CN114302227A - 基于容器采集的网络视频采集与解析的方法和系统 - Google Patents

基于容器采集的网络视频采集与解析的方法和系统 Download PDF

Info

Publication number
CN114302227A
CN114302227A CN202111623339.3A CN202111623339A CN114302227A CN 114302227 A CN114302227 A CN 114302227A CN 202111623339 A CN202111623339 A CN 202111623339A CN 114302227 A CN114302227 A CN 114302227A
Authority
CN
China
Prior art keywords
video
video data
heat information
data stream
data streams
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111623339.3A
Other languages
English (en)
Other versions
CN114302227B (zh
Inventor
苏长君
曾祥禄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhimei Internet Technology Co ltd
Original Assignee
Beijing Zhimei Internet Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhimei Internet Technology Co ltd filed Critical Beijing Zhimei Internet Technology Co ltd
Priority to CN202111623339.3A priority Critical patent/CN114302227B/zh
Publication of CN114302227A publication Critical patent/CN114302227A/zh
Application granted granted Critical
Publication of CN114302227B publication Critical patent/CN114302227B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明提供一种基于容器采集的网络视频采集与解析的方法和系统,通过获取多个不同平台的视频数据流,提取其中的特征向量和热度信息,确定特征向量中感兴趣的语义项,使用语义项的上下文来断句,没有使用语法断句,在断句处采集视频数据流,进而语义分析其词含义,可以更快地确定视频源的描述是否正确,从而可以根据判断结果来更新热度信息。

Description

基于容器采集的网络视频采集与解析的方法和系统
技术领域
本申请涉及网络多媒体领域,尤其涉及一种基于容器采集的网络视频采集与解析的方法和系统。
背景技术
网络视频的结构不同于传统文本的结构,现有数据采集的方法难以提取网络视频中的文本信息,尤其是其中包含的词含义信息。如何快速、自动化地采集和解析,成为摆在本领域技术人员面前的难题。
因此,急需一种针对性的基于容器采集的网络视频采集与解析的方法和系统。
发明内容
本发明的目的在于提供一种基于容器采集的网络视频采集与解析的方法和系统,通过获取多个不同平台的视频数据流,提取其中的特征向量和热度信息,确定特征向量中感兴趣的语义项,使用语义项的上下文来断句,没有使用语法断句,在断句处采集视频数据流,进而语义分析其词含义,可以更快地确定视频源的描述是否正确,从而可以根据判断结果来更新热度信息。
第一方面,本申请提供一种基于容器采集的网络视频采集与解析的方法,所述方法包括:
根据对应的获取策略,获取多个不同平台的视频数据流,提取其中携带的特征向量和热度信息,所述热度信息是各个平台根据视频点击播放量设置的,所述特征向量包括了所述视频数据流携带的标识、关键词、以及视频概要;
将获取的特征向量和热度信息,按照所述标识聚类,对应存储到不同的缓冲区域;
语义分析所述特征向量,根据所述关键词和视频概要的语义结果,确定感兴趣的语义项,根据所述语义项的上下文来确定断句点;
在所述断句点处采集所述视频数据流,得到第一数据,将所述第一数据输入语义分析模型,分析所述第一数据流的词含义是否包含指定的第二关键词,所述第二关键词是由所述特征向量中的关键词和视频概要生成;
如果所述第一数据流的词含义包含了所述第二关键词,则认为所述第一数据流对应的视频数据流是符合视频源描述的,反之则认为不符合视频源描述;
根据是否符合视频源描述的语义分析结果,更新所述视频数据流的热度信息,将更新后的热度信息反馈给平台。
结合第一方面,在第一方面第一种可能的实现方式中,不同的平台预先设置不同的获取策略,所述获取策略是根据所述视频特征和热度信息的修正记录更新的。
结合第一方面,在第一方面第二种可能的实现方式中,所述获取多个不同平台的视频数据流包括对所述视频数据流的编解码。
结合第一方面,在第一方面第三种可能的实现方式中,所述语义分析模型内核使用了神经网络模型。
第二方面,本申请提供一种基于容器采集的网络视频采集与解析的系统,所述系统包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面四种可能中任一项所述的方法。
第三方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面四种可能中任一项所述的方法。
本发明提供一种基于容器采集的网络视频采集与解析的方法和系统,通过获取多个不同平台的视频数据流,提取其中的特征向量和热度信息,确定特征向量中感兴趣的语义项,使用语义项的上下文来断句,没有使用语法断句,在断句处采集视频数据流,进而语义分析其词含义,可以更快地确定视频源的描述是否正确,从而可以根据判断结果来更新热度信息。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法的流程图。
具体实施方式
下面结合附图对本发明的优选实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
图1为本申请提供的基于容器采集的网络视频采集与解析的方法的流程图,包括:
根据对应的获取策略,获取多个不同平台的视频数据流,提取其中携带的特征向量和热度信息,所述热度信息是各个平台根据视频点击播放量设置的,所述特征向量包括了所述视频数据流携带的标识、关键词、以及视频概要;
将获取的特征向量和热度信息,按照所述标识聚类,对应存储到不同的缓冲区域;
语义分析所述特征向量,根据所述关键词和视频概要的语义结果,确定感兴趣的语义项,根据所述语义项的上下文来确定断句点;
在所述断句点处采集所述视频数据流,得到第一数据,将所述第一数据输入语义分析模型,分析所述第一数据流的词含义是否包含指定的第二关键词,所述第二关键词是由所述特征向量中的关键词和视频概要生成;
如果所述第一数据流的词含义包含了所述第二关键词,则认为所述第一数据流对应的视频数据流是符合视频源描述的,反之则认为不符合视频源描述;
根据是否符合视频源描述的语义分析结果,更新所述视频数据流的热度信息,将更新后的热度信息反馈给平台。
在一些优选实施例中,不同的平台预先设置不同的获取策略,所述获取策略是根据所述视频特征和热度信息的修正记录更新的。
在一些优选实施例中,所述获取多个不同平台的视频数据流包括对所述视频数据流的编解码。
在一些优选实施例中,所述语义分析模型内核使用了神经网络模型。
本申请提供一种基于容器采集的网络视频采集与解析的系统,所述系统包括:所述系统包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面所有实施例中任一项所述的方法。
本申请提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面所有实施例中任一项所述的方法。
具体实现中,本发明还提供一种计算机存储介质,其中,该计算机存储介质可以存储有程序,该程序执行时可包括本发明各个实施例中的部分或全部步骤。所述的存储介质可以为磁碟、光盘、只读存储记忆体(简称:ROM)或随机存储记忆体(简称:RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书各个实施例之间相同相似的部分互相参见即可。尤其,对于实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims (6)

1.一种基于容器采集的网络视频采集与解析的方法,其特征在于,所述方法包括:
根据对应的获取策略,获取多个不同平台的视频数据流,提取其中携带的特征向量和热度信息,所述热度信息是各个平台根据视频点击播放量设置的,所述特征向量包括了所述视频数据流携带的标识、关键词、以及视频概要;
将获取的特征向量和热度信息,按照所述标识聚类,对应存储到不同的缓冲区域;
语义分析所述特征向量,根据所述关键词和视频概要的语义结果,确定感兴趣的语义项,根据所述语义项的上下文来确定断句点;
在所述断句点处采集所述视频数据流,得到第一数据,将所述第一数据输入语义分析模型,分析所述第一数据流的词含义是否包含指定的第二关键词,所述第二关键词是由所述特征向量中的关键词和视频概要生成;
如果所述第一数据流的词含义包含了所述第二关键词,则认为所述第一数据流对应的视频数据流是符合视频源描述的,反之则认为不符合视频源描述;
根据是否符合视频源描述的语义分析结果,更新所述视频数据流的热度信息,将更新后的热度信息反馈给平台。
2.根据权利要求1所述的方法,其特征在于:不同的平台预先设置不同的获取策略,所述获取策略是根据所述视频特征和热度信息的修正记录更新的。
3.根据权利要求1-2任一项所述的方法,其特征在于:所述获取多个不同平台的视频数据流包括对所述视频数据流的编解码。
4.根据权利要求1-3任一项所述的方法,其特征在于:所述语义分析模型内核使用了神经网络模型。
5.一种基于容器采集的网络视频采集与解析的系统,其特征在于,所述系统包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行实现权利要求1-4任一项所述的方法。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行实现权利要求1-4任一项所述的方法。
CN202111623339.3A 2021-12-28 2021-12-28 基于容器采集的网络视频采集与解析的方法和系统 Active CN114302227B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111623339.3A CN114302227B (zh) 2021-12-28 2021-12-28 基于容器采集的网络视频采集与解析的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111623339.3A CN114302227B (zh) 2021-12-28 2021-12-28 基于容器采集的网络视频采集与解析的方法和系统

Publications (2)

Publication Number Publication Date
CN114302227A true CN114302227A (zh) 2022-04-08
CN114302227B CN114302227B (zh) 2024-04-26

Family

ID=80971187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111623339.3A Active CN114302227B (zh) 2021-12-28 2021-12-28 基于容器采集的网络视频采集与解析的方法和系统

Country Status (1)

Country Link
CN (1) CN114302227B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114915807A (zh) * 2022-07-14 2022-08-16 飞狐信息技术(天津)有限公司 一种信息处理方法及装置

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160112727A1 (en) * 2014-10-21 2016-04-21 Nokia Technologies Oy Method, Apparatus And Computer Program Product For Generating Semantic Information From Video Content
CN105787049A (zh) * 2016-02-26 2016-07-20 浙江大学 一种基于多源信息融合分析的网络视频热点事件发现方法
CN108009293A (zh) * 2017-12-26 2018-05-08 北京百度网讯科技有限公司 视频标签生成方法、装置、计算机设备和存储介质
CN108417205A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 语义理解训练方法和系统
CN108460104A (zh) * 2018-02-06 2018-08-28 北京奇虎科技有限公司 一种实现内容定制的方法和装置
CN109684481A (zh) * 2019-01-04 2019-04-26 深圳壹账通智能科技有限公司 舆情分析方法、装置、计算机设备和存储介质
CN109902306A (zh) * 2019-03-12 2019-06-18 珠海格力电器股份有限公司 一种语音识别方法、装置、存储介质及语音设备
CN110929098A (zh) * 2019-11-14 2020-03-27 腾讯科技(深圳)有限公司 视频数据的处理方法、装置、电子设备及存储介质
CN111783471A (zh) * 2020-06-29 2020-10-16 中国平安财产保险股份有限公司 自然语言的语义识别方法、装置、设备及存储介质
CN112818251A (zh) * 2021-04-13 2021-05-18 腾讯科技(深圳)有限公司 视频推荐方法、装置、电子设备以及存储介质
CN112989802A (zh) * 2021-01-28 2021-06-18 北京信息科技大学 一种弹幕关键词提取方法、装置、设备及介质
US20210342658A1 (en) * 2018-08-01 2021-11-04 Beijing Sankuai Online Technology Co., Ltd Polysemant meaning learning and search result display
CN115238799A (zh) * 2022-07-27 2022-10-25 天津市国瑞数码安全系统股份有限公司 基于ai随机森林恶意流量检测方法和系统

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160112727A1 (en) * 2014-10-21 2016-04-21 Nokia Technologies Oy Method, Apparatus And Computer Program Product For Generating Semantic Information From Video Content
CN105787049A (zh) * 2016-02-26 2016-07-20 浙江大学 一种基于多源信息融合分析的网络视频热点事件发现方法
CN108009293A (zh) * 2017-12-26 2018-05-08 北京百度网讯科技有限公司 视频标签生成方法、装置、计算机设备和存储介质
CN108417205A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 语义理解训练方法和系统
CN108460104A (zh) * 2018-02-06 2018-08-28 北京奇虎科技有限公司 一种实现内容定制的方法和装置
US20210342658A1 (en) * 2018-08-01 2021-11-04 Beijing Sankuai Online Technology Co., Ltd Polysemant meaning learning and search result display
CN109684481A (zh) * 2019-01-04 2019-04-26 深圳壹账通智能科技有限公司 舆情分析方法、装置、计算机设备和存储介质
CN109902306A (zh) * 2019-03-12 2019-06-18 珠海格力电器股份有限公司 一种语音识别方法、装置、存储介质及语音设备
CN110929098A (zh) * 2019-11-14 2020-03-27 腾讯科技(深圳)有限公司 视频数据的处理方法、装置、电子设备及存储介质
CN111783471A (zh) * 2020-06-29 2020-10-16 中国平安财产保险股份有限公司 自然语言的语义识别方法、装置、设备及存储介质
CN112989802A (zh) * 2021-01-28 2021-06-18 北京信息科技大学 一种弹幕关键词提取方法、装置、设备及介质
CN112818251A (zh) * 2021-04-13 2021-05-18 腾讯科技(深圳)有限公司 视频推荐方法、装置、电子设备以及存储介质
CN115238799A (zh) * 2022-07-27 2022-10-25 天津市国瑞数码安全系统股份有限公司 基于ai随机森林恶意流量检测方法和系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114915807A (zh) * 2022-07-14 2022-08-16 飞狐信息技术(天津)有限公司 一种信息处理方法及装置

Also Published As

Publication number Publication date
CN114302227B (zh) 2024-04-26

Similar Documents

Publication Publication Date Title
CN110008378B (zh) 基于人工智能的语料收集方法、装置、设备及存储介质
CN110020422B (zh) 特征词的确定方法、装置和服务器
US8630972B2 (en) Providing context for web articles
CN108509417B (zh) 标题生成方法及设备、存储介质、服务器
US9251248B2 (en) Using context to extract entities from a document collection
US7606797B2 (en) Reverse value attribute extraction
CN108027814B (zh) 停用词识别方法与装置
JP7289330B2 (ja) 新規カテゴリタグの発掘方法及び装置、電子デバイス、コンピュータ可読媒体、ならびにコンピュータプログラム製品
CN107239564B (zh) 一种基于监督主题模型的文本标签推荐方法
CN103064984B (zh) 垃圾网页的识别方法及系统
KR102334236B1 (ko) 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용
CN110727785A (zh) 推荐模型的训练、搜索文本的推荐方法、装置及存储介质
CN110825941A (zh) 一种内容管理系统识别方法、装置和存储介质
JP7395377B2 (ja) コンテンツ検索方法、装置、機器、および記憶媒体
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN113660541A (zh) 新闻视频的摘要生成方法及装置
US8037403B2 (en) Apparatus, method, and computer program product for extracting structured document
CN114302227A (zh) 基于容器采集的网络视频采集与解析的方法和系统
KR100916310B1 (ko) 오디오 신호처리 기반의 음악 및 동영상간의 교차 추천 시스템 및 방법
Sheikh et al. How diachronic text corpora affect context based retrieval of oov proper names for audio news
CN106462614B (zh) 信息分析系统、信息分析方法以及信息分析程序
CN110866393B (zh) 基于领域知识库的简历信息抽取方法及系统
KR101614551B1 (ko) 카테고리 매칭을 이용한 키워드 추출 시스템 및 방법
CN115774797A (zh) 视频内容检索方法、装置、设备和计算机可读存储介质
CN112632229A (zh) 文本聚类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 607a, 6 / F, No. 31, Fuchengmenwai street, Xicheng District, Beijing 100037

Applicant after: Beijing Guorui Digital Intelligence Technology Co.,Ltd.

Address before: 607a, 6 / F, No. 31, Fuchengmenwai street, Xicheng District, Beijing 100037

Applicant before: Beijing Zhimei Internet Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant