CN115379233B - 一种大数据视频信息分析方法和系统 - Google Patents
一种大数据视频信息分析方法和系统 Download PDFInfo
- Publication number
- CN115379233B CN115379233B CN202210981799.1A CN202210981799A CN115379233B CN 115379233 B CN115379233 B CN 115379233B CN 202210981799 A CN202210981799 A CN 202210981799A CN 115379233 B CN115379233 B CN 115379233B
- Authority
- CN
- China
- Prior art keywords
- video
- data
- frames
- target detection
- video frames
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/42—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/04—Protocols for data compression, e.g. ROHC
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种大数据视频信息分析方法和系统,其中方法包括以下步骤:从终端设备获取待处理的视频;分离视频中的视频数据与音频数据;对视频数据中的视频帧图像进行目标检测分析,得到视频帧对应的目标检测结果;将音频数据转换为文本数据,并对文本数据进行语义分析,得到语义分析结果;根据目标检测结果与语义分析结果的对应关系对视频数据进行压缩处理;向服务器端上传处理后的视频数据。本方案通过获取视频中的音频数据,将其转换为文本并提取信息,并分析视频数据与提取信息的对应关系从而对视频数据进行选择性的数据压缩,同时能够保证数据的完整性,从而可以减少大数据处理量,提升数据传输和数据处理的速度。
Description
技术领域
本发明涉及大数据处理领域,尤其是一种大数据视频信息分析方法和系统。
背景技术
当前,越来越多的公共服务部门和企业建立了自己的用户服务中心,随着业务服务范围、用户规模的扩大,用户期望值也在不断提升。服务中心无论是前端还是后端,业务处理中涉及到的用户数据也越来越多,其中特别是视频大数据存储量、处理量均呈现指数增长,人工工作量大,数据处理效率低。
发明内容
为了解决上述技术问题,本发明的目的是:提供一种大数据视频信息分析方法和系统,基于对视频信息的分析处理提高大数据处理效率。
本发明所采用的技术方案是:一种大数据视频信息分析方法,包括以下步骤:
从终端设备获取待处理的视频;
分离视频中的视频数据与音频数据;
对视频数据中的视频帧图像进行目标检测分析,得到视频帧对应的目标检测结果;
将音频数据转换为文本数据,并对文本数据进行语义分析,得到语义分析结果;
根据目标检测结果与语义分析结果的对应关系对视频数据进行压缩处理;
向服务器端上传处理后的视频数据。
进一步,所述将音频数据转换为文本数据,并对文本数据进行语义分析,得到语义分析结果,具体为:
将音频数据转换为文本数据;
对文本数据进行分词处理并进行词性标注;
根据词性标注内容提取上述分词结果中的名词。
进一步,所述根据目标检测结果与语义分析结果的对应关系对视频数据进行压缩处理,具体为:
将语义分析的得到的名词与目标检测结果进行匹配;
当存在匹配关系的名词为静态对象时,对名词与目标检测结果所对应的视频帧进行压缩处理。
进一步,所述当存在匹配关系的名词为静态对象时,对名词与目标检测结果所对应的视频帧进行压缩处理,具体为:
当存在匹配关系的名词为静态对象时,获取对名词与目标检测结果所对应的所有视频帧;
当存在视频帧所包含的目标检测结果相同且均为静态对象,并且视频帧为连续视频帧时,对连续视频帧进行压缩处理。
进一步,所述当存在视频帧所包含的目标检测结果相同且均为静态对象,并且视频帧为连续视频帧时,对连续视频帧进行压缩处理,具体为:
所述当存在视频帧所包含的目标检测结果相同且均为静态对象,并且视频帧为连续视频帧时,抽取其中部分视频帧,将该部分视频帧从视频数据中删除。
进一步,所述当存在视频帧所包含的目标检测结果相同且均为静态对象,并且视频帧为连续视频帧时,对连续视频帧进行压缩处理,具体为:
所述当存在视频帧所包含的目标检测结果相同且均为静态对象,并且视频帧为连续视频帧时,从视频数据中删除连续视频帧;
从删除的连续视频帧中抽取一帧保存为图像数据。
进一步,还包括以下步骤:
向服务器端上传音频数据和/或文本数据。
进一步,所述根据目标检测结果与语义分析结果的对应关系对视频数据进行压缩处理之后,还包括以下步骤:
在终端设备对压缩处理后的视频数据进行编码处理,其中,按设定规则抽取多个摘要画面帧并配置在编码后的视频数据的前部数据,所述编码后的视频数据的前部数据的传输优先级高于所述视频数据的后部数据。
进一步,还包括以下步骤:
服务器端接收到处理后的视频数据时,对所述前部数据进行解码以获取所述摘要画面帧进行识别,并根据识别结果选择对应的业务处理流程,并在完整接收所述后部数据后将所述前部数据和后部数据还原成完整视频。
本发明所采用的另一技术方案是:一种大数据视频信息分析系统,包括:
终端设备,用于获取待处理的视频,分离视频中的视频数据与音频数据;对视频数据中的视频帧图像进行目标检测分析,得到视频帧对应的目标检测结果;将音频数据转换为文本数据,并对文本数据进行语义分析,得到语义分析结果;根据目标检测结果与语义分析结果的对应关系对视频数据进行压缩处理;
服务器,用于接收终端设备处理后的视频数据。
本发明的有益效果是:本方案通过获取视频中的音频数据,将其转换为文本并提取信息,并分析视频数据与提取信息的对应关系从而对视频数据进行选择性的数据压缩,同时能够保证数据的完整性,从而可以减少大数据处理量,提升数据传输和数据处理的速度。
附图说明
图1为本申请第一具体实施例的步骤流程图;
图2为本申请第二具体实施例的步骤流程图;
图3为本申请第一具体实施例提供的编码过程示意图;
图4为本申请第三具体实施例提供的编码过程示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,以下将参照本申请实施例中的附图,通过实施方式清楚、完整地描述本申请的技术方案,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请方案的典型应用场景为用户服务中心,例如某些大数据投诉平台中,其中涉及RPA流程自动化处理以及视频数据的传输及分析,用户投诉时通常会上传投诉内容相关的视频,然而从实际的投诉大数据分析来看,此类视频中通常具有大多数重复数据或信息,既占用数据存储空间又占用计算资源。现有方案中通常采用低码率压缩算法和协议H.263,例如视频语义分割的算法,利用视频相邻帧之间的相似性,基于语义分割在每一帧图像中提取高层语义特征的缓慢变化,以固定的间隔选取少数帧作为关键帧;但常规视频语义分割算法仍然要求每一帧图像中提取高层语义特征是缓慢变化的,例如一视频片段中显示一辆移动的汽车,相邻视频帧之间的高层语义特征“汽车”是缓慢变化的,因此该方案对于移动物体的视频有较好的压缩效果,对于静止物体则有两种情况:拍摄静止物体的摄像头静止或者缓慢移动时,同样具有较好的压缩效果;但拍摄静止物体的摄像头不断变换方位对静止物体拍摄时,很多时候难以提取到高层语义特征的缓慢变化,反而是移动汽车的视频中,通常由于其采用远距离拍摄,即使汽车本身移动速度快,但在视频画面中相邻帧之间的移动速度并不快,因此往往能提取到高层语义特征的缓慢变化。其次,在压缩数据是还需要实现帧间特征图传播模型,用到多层神经网络实现,压缩编码时的计算成本较高,并且解码视频的计算量同样巨大,需消耗大量计算资源。
参照图1,本申请第一具体实施例提供了一种大数据视频信息分析方法,包括以下步骤:
S100、从终端设备获取待处理的视频;
所述待处理的视频可以是从终端设备存储器中读取的,也可以是通过终端设备直接拍摄的。通常根据应用场景的不同,待处理视频拍摄的内容可以是不同的,可以是产品相关的视频,也可以是拍摄文件相关的视频等。例如在消费者投诉平台上,一个投诉相关的视频可能包括产品说明内容,介绍产品所存在的质量问题,同时还可能包括拍摄的购物凭证、产品质保说明书等文件内容。
S101、分离视频中的视频数据与音频数据;
从视频中分离出视频数据用于后续的分析和数据压缩,分离出音频数据用于后续的文本语义分析。
S102、对视频数据中的视频帧图像进行目标检测分析,得到视频帧对应的目标检测结果;
其中的目标检测可采用SPP-Net(spatial pyramid pooling network)、R-CNN、Fast R-CNN、Faster R-CNN、R-FCN(Region-based fully convolutional network)等常用算法,输出的目标检测结果包括检测目标的分类标签,例如从某些视频帧中检测到分类标签“receipt/发票”。
S103、将音频数据转换为文本数据,并对文本数据进行语义分析,得到语义分析结果;
对应上述视频数据,用户上传的视频中也可能根据视频内容说明相应的投诉问题、提供的证据等内容,例如提到购物发票。此时,对文本进行分析可提取出其中的关键词“发票”。
S104、根据目标检测结果与语义分析结果的对应关系对视频数据进行压缩处理;
根据上述步骤S103和S104,其结果中出现了有对应关系的关键词,因此此时可以基于语义分析结果对视频数据进行压缩。
常规的视频压缩方法中,其基本原理是对相似的连续帧进行编码压缩,此时可以减少存储空间而不丢失视频信息。但是以典型的投诉视频为例,其中可能出现的一个视频片段内容是由用户手持视频拍摄设备在移动过程中对物体进行拍摄,视频片段内容对同一物体拍摄时不停变换拍摄角度,视频帧之间内容并无实质变化,但是此时由于相邻视频帧的画面可能变化较大,采用常规的视频压缩方法的最优效果也仅仅是基于多个拍摄角度实现分别对多个角度视频的压缩,却难以实现更高效的压缩效果。
针对上述视频片段,即使变换拍摄角度造成视频帧的画面变化较大,但是拍摄的对象并未实质变化,因此本实施例中,可根据目标检测结果与语义分析结果的对应关系对视频片段进行更高效的数据压缩。
S105、向服务器端上传处理后的视频数据。
进一步作为优选的实施方式,所述步骤S103具体为:
S1031、将音频数据转换为文本数据;
S1032、对文本数据进行分词处理并进行词性标注;
S1033、根据词性标注内容提取上述分词结果中的名词。
上述步骤的目的是从音频数据中提取名词,名词所对应的对象在视频片段中出现时,可以对该视频片段进行高效地压缩;之所以未考虑提取名词,是因为动词所对应的视频片段中可能反映的是连续动作状态,无法通过截取视频片段中的一帧或少量帧来实现数据压缩。具体的音频文本转换、分词以及词性标注均为本领域常规方案,此处无需赘述。
进一步作为优选的实施方式,所述步骤S104具体为:
S1041、将语义分析的得到的名词与目标检测结果进行匹配;
S1042、当存在匹配关系的名词为静态对象时,对名词与目标检测结果所对应的视频帧进行压缩处理。
上述静态对象是指需借助外力才可以移动的物体,例如手机、电脑、椅子等物体。与静态对象相反的则是动态对象,是指不借助外力可以自动移动的物体,例如电动玩具、扫地机器人等。本申请实施例中可在终端设备或者服务器中预先设置静态对象的数据库,用于对名词的上述属性进行判断。当视频数据中目标检测结果与语义分析的得到的名词相匹配,并且名词可归类为静态对象时,则表明对应的视频片段可以考虑进行数据压缩的。
进一步作为优选的实施方式,所述所述步骤S1042具体为:
当存在匹配关系的名词为静态对象时,获取对名词与目标检测结果所对应的所有视频帧;
当存在视频帧所包含的目标检测结果相同且均为静态对象,并且视频帧为连续视频帧时,对连续视频帧进行压缩处理。
假设用户提供的视频中若干个连续视频帧中均检测到目标标签为“发票”,且仅存在该标签时,由于其属于静态对象,此时确定可以对其进行数据压缩,而具体的数据压缩有多种实现方式。
进一步作为优选的实施方式,当存在视频帧所包含的目标检测结果相同且均为静态对象,并且视频帧为连续视频帧时,第一种压缩方式具体为:抽取其中部分视频帧,将该部分视频帧从视频数据中删除。
例如用户提供的视频中连续10秒视频的视频帧中均检测到目标标签为“发票”,此时抽取其中的2秒视频,删除其余的8秒视频。例如只抽取其中前2秒、只抽取其中后2秒或者等距抽取视频帧,即每抽取1帧,删除后面的4帧。从上述语义分析、目标检测以及对应关系的匹配来看,具体如何抽取并不会减少视频中所提供的信息,因此具体的抽取方式不限。理论上对上述视频片段的极限压缩可以只抽取其中的1帧,但考虑到实际应用中,如消费者投诉平台的服务器后端处理采用RPA流程自动化处理时还需要进行人机协同,有些视频片段需要交给客服人员处理,因此需保证关键信息的视频时长以避免信息被遗漏。
当视频数据经过上述压缩处理后,很可能出现视频数据的时长与音频数据的时长差别较大的情况,此时视频数据与音频数据不匹配,进一步作为优选的实施方式,还包括以下步骤:
向服务器端上传音频数据和/或文本数据。
本申请实施例通过上述步骤S100~S104实现了在终端设备对视频数据最大限度的压缩,因此在可以大幅提升数据从终端设备向服务器传输的效率。在消费者投诉的客服场景中,用户将售后或者投诉视频发送到客服中,而客服回复有相当部分会先由自动化机器人来处理。此时,如果必须等到视频传输完毕才能进行分析和处理,即使对视频数据进行了高效的压缩,仍会导致用户需要等待一段时间,造成系统响应慢的假象,降低用户体验。因此,参照图2和3,作为本申请第二具体实施例,在所述步骤S100~S104之后,还包括以下步骤:
S200、在终端设备对压缩处理后的视频数据进行编码处理,其中,按设定规则抽取多个摘要画面帧并配置在编码后的视频数据的前部数据,所述编码后的视频数据的前部数据的传输优先级高于所述视频数据的后部数据。
可以理解的是,在部分实施例中,可以按照一定的间隔抽取摘要画面帧。由于在特定场景,例如产品售后场景中,用户拍摄的内容主要是产品视频,因此,产品出现的概率比较高,通过按间隔抽取的方式,一般可以捕捉到产品的画面帧,从而可以基于产品的画面帧进行订单识别。将前部数据优先传输,实际上是将一些摘要画面帧先传输到服务器进行分析。在配备有相对较强计算处理能力的本地终端设备预先执行上述步骤S100~S104,则可以减少前部数据,增加摘要画面帧的有效率。
其中,参照图3,所述在终端设备对待处理的视频进行编码处理,具体包括:
S201、采用GOP策略对视频进行处理,得到多个GOP分组,每个GOP分组中包括一个关键帧I和多个预测帧P。
S202、抽取若干个GOP分组的关键帧作为摘要画面帧。例如,可以每间隔N个GOP分组获取一帧作为摘要画面帧,所述N为正整数。
S203、在被抽取关键帧的GOP分组中加入索引信息,以确定关键帧所在所述前部数据的位置。
参照图3,在本实施例中采用GOP策略来对视频进行编码,以减少视频体积其中,I帧是指GOP分组中的关键帧,I帧是可以单独解码出图像的画面帧,P帧则是预测帧,需要基于同一GOP分组内的I帧才能解码出对应的画面帧。GOP策略本质上是利用了视频连续变化的特点,相邻画面帧之间相差不大,因此可以通过记录差别的方式来实现压缩。同时,采用GOP策略使得GOP分组可以独立解码,从而实现边接收编解码的功能,不受传输先后的约束。从图3可知,上半部分是普通的GOP分组结构,而本方案为了解决视频传输时间过长影响识别进程的问题,并利用GOP分组中关键帧是可以独立解码的画面帧的特点,抽取部分GOP分组的关键帧到前部数据,并将分组其余部分的数据留在后部数据中,被抽取关键帧的GOP分组以索引信息S来替代,显然,索引信息S的大小相对于关键帧而言数据量比较小。因此,采取这一方式,一方面可以满足传输部分摘要画面帧的需求,另一方面不会过度增加传输量,同时,也不影响GOP策略的解码,因为前部数据优先发送,即便是被抽取关键帧的GOP分组在到达后也可以在前部数据找到对应的关键帧。
进一步作为优选的实施方式,还包括以下步骤:
S300、服务器端接收到处理后的视频数据时,对所述前部数据进行解码以获取所述摘要画面帧进行识别,并根据识别结果选择对应的业务处理流程,并在完整接收所述后部数据后将所述前部数据和后部数据还原成完整视频。
在部分实施例中,所述对所述前部数据进行解码以获取所述摘要画面帧进行识别,并根据识别结果选择对应的业务处理流程,包括:
S301、获取当前在预设时间内的订单信息,根据所述订单信息获取关联图片。一般情况下,对于电商平台的商品而言,其售卖页会有多个产品的视图。因此,可以通过获取这些关联图片就用作匹配。这些关联图片中的物品基本上就是商品,这些信息无需重新抓取和处理,由售卖者进行维护,数据成本低。
S302、将所述关联图片与所述摘要画面帧进行匹配,以确定所述视频对应的订单信息。可以理解的是,可以逐个将关联图片和每个摘要画面帧进行匹配,当寻找到高相似度的图片时,就可以确定出视频和订单的关系。
S303、向终端设备推送订单确认界面,以使终端设备基于用户指令确认或否认对应的订单信息,并根据终端设备的确认或者否认动作执行下一步设定的流程。
在部分实施例中,由于摘要画面帧中可能有多个无效画面帧,因此本方案采取的策略是推荐匹配度最高的,例如,摘要画面帧一共五帧,其中只有两帧清楚地拍到和商品,其余三帧都是背景图,此时,实际有效的是包含商品的两帧。那么两帧包含商品的匹配度会比较高,背景图匹配度会比较低。假定关联图片只有2张,那么此时会产生10个匹配度,在本实施例中,在这10个匹配度中取匹配度最高的来代表视频和订单之间的匹配度。因此,在S302中,将所述关联图片与所述摘要画面帧进行匹配,以确定所述视频对应的订单信息,具体是:
S3021、从摘要画面帧中识别出摘要画面帧中物品的类型,得到至少一个候选类型。通过这一方式可以减少匹配的数量,例如,在图像中识别到的物品是雨伞,而用户最近的订单包括雨伞、拖鞋和毛衣,此时就没有必要进行下一步的匹配了,因为订单类型是唯一的。当然,为了确定视频是否和订单是否相关,即使只有一个匹配订单也可以做进一步匹配。
S3022、根据所述候选类型从预设时间段内的订单信息中匹配对应类型的商品订单,得到至少一个候选订单。例如,获取一年内的订单信息。
S3023、将候选订单的关联图片中的商品区域与各摘要画面帧中的物品区域进行匹配,将匹配度最高的图片组对应的候选订单确定所述视频对应的订单信息。例如,关联图片有2张,摘要画面帧也是2张,一共进行4次匹配。选择4次匹配中匹配度最高的作为候选订单的相似度。然后基于各订单对应的相似度来确定推送给用户确定的订单。本步骤之所以采用物品所在区域进行匹配,主要是无法控制用户拍摄的背景,通过剥离背景直接采用物品所在区域进行匹配的方式可以提高匹配的准确度。
S3024、根据候选订单中关联图片与各画面帧之间的匹配度的最大值对候选订单进行降序排序。在存在多个匹配订单的时候,可以对这些订单进行降序排列,进行轮候推送。
S3025、当所述终端设备执行否认动作时,关闭当前订单信息,并将排序中在当前订单后一位的订单信息作为确认对象向终端设备进行推送。在商品订单和视频内容比较接近的时候,可能会产生匹配错误的情况。如果用户对订单内容进行否定时,可以推送下一个订单供用户确认。
可以理解的是,在本场景下,用户在仍未传输完视频的情况下,系统可能已经匹配出相关的订单,并向用户进行推送。当用户选择后,系统可以直接按照预先设定的流程帮助用户解决问题,而无需等待视频完全传输完毕。这样减少了用户等待的时间,优化了用户体验。
在部分实施例中,在所述在终端设备对待处理的视频进行编码处理的步骤之前,还包括:
根据视频长度和当前网络状态估算传输时间,当传输时间小于阈值时,采取不区分前部数据和后部数据的方式编码后直接传输视频。
在本实施例中,当当前网络状态良好,或者视频较短的情况下,可以经由与服务器协商后采用普通的匹配方式进行处理。此时,从视频中抽取相关画面由服务器执行。这样的方式,可以基于视频和网络的情况,采取不同的策略,满足不同场景需求,使得用户可以获得更好的体验。
参照图3,在部分实施方式中,所述在完整接收所述后部数据后将所述前部数据和后部数据还原成完整视频的步骤具体包括:
所述服务器在接收后部数据时,每接收到一个GOP分组后校验是否具有关键帧,若有则直接对GOP分组进行解码或存储,若无则根据索引信息从前部数据获取GOP分组对应的关键帧,从而还原成完整的GOP分组进行解码或存储。
参照图2和图4,本申请第三具体实施例提供了一种大数据视频信息分析方法,包括以下步骤:
S100、从终端设备获取待处理的视频;
所述待处理的视频可以是从终端设备存储器中读取的,也可以是通过终端设备直接拍摄的。通常根据应用场景的不同,待处理视频拍摄的内容可以是不同的,可以是产品相关的视频,也可以是拍摄文件相关的视频等。例如在消费者投诉平台上,一个投诉相关的视频可能包括产品说明内容,介绍产品所存在的质量问题,同时还可能包括拍摄的购物凭证、产品质保说明书等文件内容。
S101、分离视频中的视频数据与音频数据;
从视频中分离出视频数据用于后续的分析和数据压缩,分离出音频数据用于后续的文本语义分析。
S102、对视频数据中的视频帧图像进行目标检测分析,得到视频帧对应的目标检测结果;
其中的目标检测可采用SPP-Net(spatial pyramid pooling network)、R-CNN、Fast R-CNN、Faster R-CNN、R-FCN(Region-based fully convolutional network)等常用算法,输出的目标检测结果包括检测目标的分类标签,例如从某些视频帧中检测到分类标签“receipt/发票”。
S103、将音频数据转换为文本数据,并对文本数据进行语义分析,得到语义分析结果;
对应上述视频数据,用户上传的视频中也可能根据视频内容说明相应的投诉问题、提供的证据等内容,例如提到购物发票。此时,对文本进行分析可提取出其中的关键词“发票”。
S104、根据目标检测结果与语义分析结果的对应关系对视频数据进行压缩处理;
根据上述步骤S103和S104,其结果中出现了有对应关系的关键词,因此此时可以基于语义分析结果对视频数据进行压缩。
常规的视频压缩方法中,其基本原理是对相似的连续帧进行编码压缩,此时可以减少存储空间而不丢失视频信息。但是以典型的投诉视频为例,其中可能出现的一个视频片段内容是由用户手持视频拍摄设备在移动过程中对物体进行拍摄,视频片段内容对同一物体拍摄时不停变换拍摄角度,视频帧之间内容并无实质变化,但是此时由于相邻视频帧的画面可能变化较大,采用常规的视频压缩方法的最优效果也仅仅是基于多个拍摄角度实现分别对多个角度视频的压缩,却难以实现更高效的压缩效果。
针对上述视频片段,即使变换拍摄角度造成视频帧的画面变化较大,但是拍摄的对象并未实质变化,因此本实施例中,可根据目标检测结果与语义分析结果的对应关系对视频片段进行更高效的数据压缩。
S105、向服务器端上传处理后的视频数据。
进一步作为优选的实施方式,所述步骤S103具体为:
S1031、将音频数据转换为文本数据;
S1032、对文本数据进行分词处理并进行词性标注;
S1033、根据词性标注内容提取上述分词结果中的名词。
上述步骤的目的是从音频数据中提取名词,名词所对应的对象在视频片段中出现时,可以对该视频片段进行高效地压缩;之所以未考虑提取名词,是因为动词所对应的视频片段中可能反映的是连续动作状态,无法通过截取视频片段中的一帧或少量帧来实现数据压缩。
进一步作为优选的实施方式,所述步骤S104具体为:
S1041、将语义分析的得到的名词与目标检测结果进行匹配;
S1042、当存在匹配关系的名词为静态对象时,对名词与目标检测结果所对应的视频帧进行压缩处理。
上述静态对象是指需借助外力才可以移动的物体,例如手机、电脑、椅子等物体。与静态对象相反的则是动态对象,是指不借助外力可以自动移动的物体,例如电动玩具、扫地机器人等。本申请实施例中可在终端设备或者服务器中预先设置静态对象的数据库,用于对名词的上述属性进行判断。当视频数据中目标检测结果与语义分析的得到的名词相匹配,并且名词可归类为静态对象时,则表明对应的视频片段可以考虑进行数据压缩的。
进一步作为优选的实施方式,所述步骤S1042具体为:
当存在匹配关系的名词为静态对象时,获取对名词与目标检测结果所对应的所有视频帧;
当存在视频帧所包含的目标检测结果相同且均为静态对象,并且视频帧为连续视频帧时,对连续视频帧进行压缩处理。
假设用户提供的视频中若干个连续视频帧中均检测到目标标签为“发票”,且仅存在该标签时,由于其属于静态对象,此时确定可以对其进行数据压缩,而具体的数据压缩有多种实现方式。
进一步作为优选的实施方式,当存在视频帧所包含的目标检测结果相同且均为静态对象,并且视频帧为连续视频帧时,第二种压缩方式具体为:
从视频数据中删除连续视频帧;
从删除的连续视频帧中抽取一帧保存为图像数据。
同样考虑到上述第一具体实施例中人机协同的问题,第二种压缩方式中,若用户提供的视频中连续10秒视频的视频帧中均检测到目标标签为“发票”,此时抽取其中的1帧保存为图像数据,而原视频中则可以删除连续10秒视频片段,此时数据压缩效果最佳。
当视频数据经过上述压缩处理后,很可能出现视频数据的时长与音频数据的时长差别较大的情况,此时视频数据与音频数据不匹配,进一步作为优选的实施方式,还包括以下步骤:
向服务器端上传音频数据和/或文本数据。
在消费者投诉的客服场景中,用户将售后或者投诉视频发送到客服中,而客服回复有相当部分会先由自动化机器人来处理。此时,如果必须等到视频传输完毕才能进行分析和处理,即使通过上述步骤S100~S104对视频数据进行了高效的压缩,仍会导致用户需要等待一段时间,造成系统响应慢的假象,降低用户体验。因此,进一步作为优选的实施方式,还包括以下步骤:
S200、在终端设备对压缩处理后的视频数据进行编码处理,其中,按设定规则抽取多个摘要画面帧,并将多个摘要画面帧与上述从删除的连续视频帧中抽取的一帧图像数据配置在编码后的视频数据的前部数据,所述编码后的视频数据的前部数据的传输优先级高于所述视频数据的后部数据。
而对于上述向服务器端上传音频数据和/或文本数据,可以考虑在编码处理时将所述步骤S1042中的名词上传至服务器,且在传输音频数据时,音频数据的传输优先级低于所述前部数据,(即先传输前部数据再传输音频数据)。可以理解的是,通过本地的处理能力帮助服务器端完成语音识别,可以减轻服务器处理视频中音频的压力。在传输过程中,前部数据和检测到的名词的传输优先级都是较高的,而后部数据和音频数据的传输优先级低于前两者。当本地处理能力较强而网络质量较差时,先在本地完成语音识别后进行关键词的上传,有助服务器端分析下一步的业务流程。这样同样无需在传输完音频之后,服务器再进行语音分析。
可以理解的是,在部分实施例中,可以按照一定的间隔抽取摘要画面帧。由于在特定场景,例如产品售后场景中,用户拍摄的内容主要是产品视频,因此,产品出现的概率比较高,通过按间隔抽取的方式,一般可以捕捉到产品的画面帧,从而可以基于产品的画面帧进行订单识别。将前部数据优先传输,实际上是将一些摘要画面帧先传输到服务器进行分析。在配备有相对较强计算处理能力的本地终端设备预先执行上述步骤S100~S104,则可以减少前部数据,增加摘要画面帧的有效率。对于上述例子,则相当于连续10秒视频的视频帧中只需要抽取一帧作为摘要画面帧,同时还减少了后部数据的大小。
其中,参照图4,所述在终端设备对待处理的视频进行编码处理,具体包括:
S201、采用GOP策略对视频进行处理,得到多个GOP分组,每个GOP分组中包括一个关键帧I和多个预测帧P。
S202、抽取若干个GOP分组的关键帧作为摘要画面帧。例如,可以每间隔N个GOP分组获取一帧作为摘要画面帧,所述N为正整数。
S203、在被抽取关键帧的GOP分组中加入索引信息,以确定关键帧所在所述前部数据的位置,所述前部数据包括上述N个摘要画面帧(即若干个GOP分组的关键帧I)与上述从删除的连续视频帧中抽取的一帧图像数据A。其中图像数据A相当于被删除的连续视频帧的关键帧,因此也可理解为一个摘要画面帧,但该摘要画面帧(图像数据)A没有相对应的索引信息。
参照图4,在本实施例中采用GOP策略来对视频进行编码,以减少视频体积其中,I帧是指GOP分组中的关键帧,I帧是可以单独解码出图像的画面帧,P帧则是预测帧,需要基于同一GOP分组内的I帧才能解码出对应的画面帧。GOP策略本质上是利用了视频连续变化的特点,相邻画面帧之间相差不大,因此可以通过记录差别的方式来实现压缩。同时,采用GOP策略使得GOP分组可以独立解码,从而实现边接收编解码的功能,不受传输先后的约束。从图4中间层部分可知,其中包括一个图像数据A(相当于被删除的连续视频帧的关键帧)以及普通的GOP分组结构,本方案为了解决视频传输时间过长影响识别进程的问题,通过步骤S100-S104,将其中的视频片段压缩为图像数据而不减少信息量,并对于未压缩成图像数据的视频片段利用GOP分组中关键帧是可以独立解码的画面帧的特点,抽取部分GOP分组的关键帧到前部数据,并将分组其余部分的数据留在后部数据中,被抽取关键帧的GOP分组以索引信息S来替代,显然,索引信息S的大小相对于关键帧而言数据量比较小。因此,采取这一方式,一方面可以满足传输部分摘要画面帧的需求,另一方面不会过度增加传输量,同时,也不影响GOP策略的解码,因为前部数据优先发送,即便是被抽取关键帧的GOP分组在到达后也可以在前部数据找到对应的关键帧。
参照图4,进一步作为优选的实施方式,还包括以下步骤:
S300、服务器端接收到处理后的视频数据时,对所述前部数据进行解码以获取所述摘要画面帧和图像数据进行识别,并根据识别结果选择对应的业务处理流程,并在完整接收所述后部数据后将所述前部数据的摘要画面帧和后部数据还原成完整视频。
需注意的是,虽然图像数据实质上也是一个摘要画面帧,但是由于其与后部数据并不存在索引关系,因此还原完整视频时不需要图像数据参与处理。最后得到的还原结果是图像数据和完整视频,此完整视频是指步骤S100~S104之后所得到的经过删除视频帧的视频数据。
参照图4,在部分实施例中,所述对所述前部数据进行解码以获取所述摘要画面帧I和图像数据A进行识别,并根据识别结果选择对应的业务处理流程,包括:
S301、获取当前在预设时间内的订单信息,根据所述订单信息获取关联图片。一般情况下,对于电商平台的商品而言,其售卖页会有多个产品的视图。因此,可以通过获取这些关联图片就用作匹配。这些关联图片中的物品基本上就是商品,这些信息无需重新抓取和处理,由售卖者进行维护,数据成本低。
S302、将所述关联图片与所述摘要画面帧和图像数据进行匹配,以确定所述视频对应的订单信息。可以理解的是,可以逐个将关联图片和每个摘要画面帧和图像数据进行匹配,当寻找到高相似度的图片时,就可以确定出视频和订单的关系。
S303、向终端设备推送订单确认界面,以使终端设备基于用户指令确认或否认对应的订单信息,并根据终端设备的确认或者否认动作执行下一步设定的流程。
在部分实施例中,由于摘要画面帧中可能有多个无效画面帧,因此本方案采取的策略是推荐匹配度最高的,例如,摘要画面帧一共五帧,其中只有两帧清楚地拍到和商品,其余三帧都是背景图,此时,实际有效的是包含商品的两帧。那么两帧包含商品的匹配度会比较高,背景图匹配度会比较低。假定关联图片只有2张,那么此时会产生10个匹配度,在本实施例中,在这10个匹配度中取匹配度最高的来代表视频和订单之间的匹配度。因此,在S302中,将所述关联图片与所述摘要画面帧进行匹配,以确定所述视频对应的订单信息,具体是:
S3021、从摘要画面帧和图像数据中识别出物品的类型,得到至少一个候选类型。通过这一方式可以减少匹配的数量,例如,在图像中识别到的物品是雨伞,而用户最近的订单包括雨伞、拖鞋和毛衣,此时就没有必要进行下一步的匹配了,因为订单类型是唯一的。当然,为了确定视频是否和订单是否相关,即使只有一个匹配订单也可以做进一步匹配。
S3022、根据所述候选类型从预设时间段内的订单信息中匹配对应类型的商品订单,得到至少一个候选订单。例如,获取一年内的订单信息。
S3023、将候选订单的关联图片中的商品区域与各摘要画面帧以及图像数据中的物品区域进行匹配,将匹配度最高的图片组对应的候选订单确定所述视频对应的订单信息。例如,关联图片有2张,摘要画面帧也是5张,图像数据1张,一共进行12次匹配。选择12次匹配中匹配度最高的作为候选订单的相似度。然后基于各订单对应的相似度来确定推送给用户确定的订单。本步骤之所以采用物品所在区域进行匹配,主要是无法控制用户拍摄的背景,通过剥离背景直接采用物品所在区域进行匹配的方式可以提高匹配的准确度。
S3024、根据候选订单中关联图片与各摘要画面帧以及图像数据之间的匹配度的最大值对候选订单进行降序排序。在存在多个匹配订单的时候,可以对这些订单进行降序排列,进行轮候推送。
S3025、当所述终端设备执行否认动作时,关闭当前订单信息,并将排序中在当前订单后一位的订单信息作为确认对象向终端设备进行推送。在商品订单和视频内容比较接近的时候,可能会产生匹配错误的情况。如果用户对订单内容进行否定时,可以推送下一个订单供用户确认。
可以理解的是,在本场景下,用户在仍未传输完视频的情况下,系统可能已经匹配出相关的订单,并向用户进行推送。当用户选择后,系统可以直接按照预先设定的流程帮助用户解决问题,而无需等待视频完全传输完毕。这样减少了用户等待的时间,优化了用户体验。
在部分实施例中,在所述在终端设备对待处理的视频进行编码处理的步骤之前,还包括:
根据视频长度和当前网络状态估算传输时间,当传输时间小于阈值时,采取不区分前部数据和后部数据的方式编码后直接传输视频。
在本实施例中,当当前网络状态良好,或者视频较短的情况下,可以经由与服务器协商后采用普通的匹配方式进行处理。此时,从视频中抽取相关画面由服务器执行。这样的方式,可以基于视频和网络的情况,采取不同的策略,满足不同场景需求,使得用户可以获得更好的体验。
本发明所采用的另一技术方案是:一种大数据视频信息分析系统,包括:
终端设备,用于获取待处理的视频,分离视频中的视频数据与音频数据;对视频数据中的视频帧图像进行目标检测分析,得到视频帧对应的目标检测结果;将音频数据转换为文本数据,并对文本数据进行语义分析,得到语义分析结果;根据目标检测结果与语义分析结果的对应关系对视频数据进行压缩处理;
服务器,用于接收终端设备处理后的视频数据。
注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。
Claims (5)
1.一种大数据视频信息分析方法,其特征在于,包括以下步骤:
从终端设备获取待处理的视频;
分离视频中的视频数据与音频数据;
对视频数据中的视频帧图像进行目标检测分析,得到视频帧对应的目标检测结果;
将音频数据转换为文本数据;
对文本数据进行分词处理并进行词性标注;
根据词性标注内容提取上述分词结果中的名词;
将语义分析的得到的名词与目标检测结果进行匹配;
当存在匹配关系的名词为静态对象时,获取对名词与目标检测结果所对应的所有视频帧;
所述当存在视频帧所包含的目标检测结果相同且均为静态对象,并且视频帧为连续视频帧时,抽取其中部分视频帧,将该部分视频帧从视频数据中删除;或者
所述当存在视频帧所包含的目标检测结果相同且均为静态对象,并且视频帧为连续视频帧时,从视频数据中删除连续视频帧;从删除的连续视频帧中抽取一帧保存为图像数据;
向服务器端上传处理后的视频数据。
2.根据权利要求1中的任一权利要求所述的一种大数据视频信息分析方法,其特征在于,还包括以下步骤:
向服务器端上传音频数据和/或文本数据。
3.根据权利要求1中的任一权利要求所述的一种大数据视频信息分析方法,其特征在于,所述根据目标检测结果与语义分析结果的对应关系对视频数据进行压缩处理之后,还包括以下步骤:
在终端设备对压缩处理后的视频数据进行编码处理,其中,按设定规则抽取多个摘要画面帧并配置在编码后的视频数据的前部数据,所述编码后的视频数据的前部数据的传输优先级高于所述视频数据的后部数据。
4.根据权利要求3中的任一权利要求所述的一种大数据视频信息分析方法,其特征在于,还包括以下步骤:
服务器端接收到处理后的视频数据时,对所述前部数据进行解码以获取所述摘要画面帧进行识别,并根据识别结果选择对应的业务处理流程,并在完整接收所述后部数据后将所述前部数据和后部数据还原成完整视频。
5.一种大数据视频信息分析系统,其特征在于,包括:
终端设备,用于执行以下步骤:
获取待处理的视频,分离视频中的视频数据与音频数据;
对视频数据中的视频帧图像进行目标检测分析,得到视频帧对应的目标检测结果;
将音频数据转换为文本数据;
对文本数据进行分词处理并进行词性标注;
根据词性标注内容提取上述分词结果中的名词;
将语义分析的得到的名词与目标检测结果进行匹配;当存在匹配关系的名词为静态对象时,获取对名词与目标检测结果所对应的所有视频帧;
所述当存在视频帧所包含的目标检测结果相同且均为静态对象,并且视频帧为连续视频帧时,抽取其中部分视频帧,将该部分视频帧从视频数据中删除;或者
所述当存在视频帧所包含的目标检测结果相同且均为静态对象,并且视频帧为连续视频帧时,从视频数据中删除连续视频帧;从删除的连续视频帧中抽取一帧保存为图像数据;
服务器,用于接收终端设备处理后的视频数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210981799.1A CN115379233B (zh) | 2022-08-16 | 2022-08-16 | 一种大数据视频信息分析方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210981799.1A CN115379233B (zh) | 2022-08-16 | 2022-08-16 | 一种大数据视频信息分析方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115379233A CN115379233A (zh) | 2022-11-22 |
CN115379233B true CN115379233B (zh) | 2023-07-04 |
Family
ID=84066196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210981799.1A Active CN115379233B (zh) | 2022-08-16 | 2022-08-16 | 一种大数据视频信息分析方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115379233B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117278765B (zh) * | 2023-11-23 | 2024-02-13 | 北京铁力山科技股份有限公司 | 一种视频压缩方法、装置、设备以及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104735470A (zh) * | 2015-02-11 | 2015-06-24 | 海信集团有限公司 | 一种流媒体数据传输方法及装置 |
CN114173087A (zh) * | 2021-11-02 | 2022-03-11 | 上海三旺奇通信息科技有限公司 | 视频数据获取及处理方法、边缘网关及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6970510B1 (en) * | 2000-04-25 | 2005-11-29 | Wee Susie J | Method for downstream editing of compressed video |
JP5077003B2 (ja) * | 2008-03-25 | 2012-11-21 | ソニー株式会社 | 画像処理装置、画像処理方法、プログラム |
US20140373036A1 (en) * | 2013-06-14 | 2014-12-18 | Telefonaktiebolaget L M Ericsson (Publ) | Hybrid video recognition system based on audio and subtitle data |
CN108509465B (zh) * | 2017-02-28 | 2022-03-15 | 阿里巴巴集团控股有限公司 | 一种视频数据的推荐方法、装置和服务器 |
CN110198475B (zh) * | 2018-11-09 | 2022-02-25 | 腾讯科技(深圳)有限公司 | 视频处理方法、装置、设备、服务器与可读存储介质 |
-
2022
- 2022-08-16 CN CN202210981799.1A patent/CN115379233B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104735470A (zh) * | 2015-02-11 | 2015-06-24 | 海信集团有限公司 | 一种流媒体数据传输方法及装置 |
CN114173087A (zh) * | 2021-11-02 | 2022-03-11 | 上海三旺奇通信息科技有限公司 | 视频数据获取及处理方法、边缘网关及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于注意力机制的低分辨率图像目标检测技术研究;刘丰;《电子科技大学》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115379233A (zh) | 2022-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6445716B2 (ja) | ビデオストリームのエンティティベースの時間的セグメント化 | |
CN101394522B (zh) | 一种视频拷贝的检测方法和系统 | |
EP1026635B1 (en) | Motion descriptor generating apparatus by using accumulated motion histogram and a method therefore | |
CN110475129B (zh) | 视频处理方法、介质及服务器 | |
JP2001155169A (ja) | ビデオ画像の分割、分類、および要約のための方法およびシステム | |
WO2022188644A1 (zh) | 词权重的生成方法、装置、设备及介质 | |
CN115379233B (zh) | 一种大数据视频信息分析方法和系统 | |
CN113392236A (zh) | 一种数据分类方法、计算机设备及可读存储介质 | |
CN111783712A (zh) | 一种视频处理方法、装置、设备及介质 | |
CN103020138A (zh) | 一种视频检索的方法和装置 | |
WO2022247849A1 (zh) | 多媒体数据处理方法及装置、设备、存储介质 | |
CN110691246B (zh) | 视频编码方法、装置及电子设备 | |
CN116645624A (zh) | 视频内容理解方法和系统、计算机设备、存储介质 | |
CN110248195B (zh) | 用于输出信息的方法和装置 | |
KR101675785B1 (ko) | 특징점을 이용한 영상 검색 방법 및 상기 방법을 수행하는 장치 | |
EP1613096B1 (en) | Video coding with determination of coding order according to a minimum spanning tree | |
US11095901B2 (en) | Object manipulation video conference compression | |
CN115297323B (zh) | 一种rpa流程自动化方法和系统 | |
CN116208772A (zh) | 数据处理方法、装置、电子设备及计算机可读存储介质 | |
US20220358744A1 (en) | Multi-resolution image processing device and method capable of processing recognition of multiple dynamic objects | |
CN107194961B (zh) | 群体图像编码中多参考图像的确定方法 | |
Shambharkar et al. | From video summarization to real time video summarization in smart cities and beyond: A survey | |
CN112668504A (zh) | 动作识别方法、装置及电子设备 | |
JP2002199332A (ja) | オーディオ概要情報、オーディオビデオ概要情報の抽出装置、再生装置、および記録媒体 | |
CN112468843A (zh) | 视频去重方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |