CN115396726B - 一种用于商务直播的演示文稿生成系统及方法 - Google Patents

一种用于商务直播的演示文稿生成系统及方法 Download PDF

Info

Publication number
CN115396726B
CN115396726B CN202210918184.4A CN202210918184A CN115396726B CN 115396726 B CN115396726 B CN 115396726B CN 202210918184 A CN202210918184 A CN 202210918184A CN 115396726 B CN115396726 B CN 115396726B
Authority
CN
China
Prior art keywords
image
images
feature
value
optimal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210918184.4A
Other languages
English (en)
Other versions
CN115396726A (zh
Inventor
陈兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202210918184.4A priority Critical patent/CN115396726B/zh
Publication of CN115396726A publication Critical patent/CN115396726A/zh
Application granted granted Critical
Publication of CN115396726B publication Critical patent/CN115396726B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • H04N21/4334Recording operations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种用于商务直播的演示文稿生成系统及方法,包括视频帧抽取模块引入若干帧原始图像;图像预处理模块对若干原始图像预处理得到采样图像;特征选取单元将若干对采样图像特征比对得到一对优选特征;下限处理单元求得最优特征;还原子单元扫掠特征基点得到最优特征的位置,将若干对比对图像还原为若干对初始图像,图像分割单元将若干对初始图像分割为若干图像块,差值计算单元计算得到初始图像中的最优图像差值;阈值比较单元将第一连续时间段中任意的初始图像保存并作为一演示文稿图像;文稿生成模块根据若干演示文稿图像生成演示文稿。本发明实现了自动截取直播过程中的演示文稿内容。

Description

一种用于商务直播的演示文稿生成系统及方法
技术领域
本发明涉及视频处理技术领域,尤其涉及一种用于商务直播的演示文稿生成系统及方法。
背景技术
商务直播就是主要针对商业用户提供直播的,跟普通直播相比,内容上更加商务。商务直播中有一个重要的场景,当商务直播的主播向观众展示演示文稿内容时,现场导播通常会将直播画面切到画中画的模式,以便观众观看学习。观众在观看演示文稿中的内容时,受限于直播源的清晰度以及主播切换演示文稿的速度,导致很多观众在直播时无法看完演示文稿中的内容,对于需要对直播过程中的演示文稿进行反复观看学习的观众而言,只能通过直播录屏的方式来反复观看演示文稿中的内容,该种方式效率较低且受限于录屏的视频源的清晰度,导致录屏的视频源中的演示文稿内容无法被观众完全看清,影响观众的学习效果。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种用于商务直播的演示文稿生成系统及方法,用于自动截取直播过程中的演示文稿内容,以便观众学习。
为实现上述目的,本发明提供了如下技术方案:一种用于商务直播的演示文稿生成系统,包括:
视频帧抽取模块,用于引入商务直播的视频流数据,并从所述视频流数据中抽取得到若干帧原始图像;
图像预处理模块,连接所述视频帧抽取模块,用于对若干所述原始图像依次进行图像预处理,得到相应的采样图像;
图像处理模块,连接所述图像预处理模块,包括:
特征选取单元,用于将选取若干对连续两帧人像框位置不变的所述采样图像进行特征比对,处理得到一对优选特征,所述优选特征包含有若干优选特征值;
下限处理单元,连接所述特征选取单元,用于获取得到所述优选特征所在区域内的像素点数量、所述优选特征的覆盖面积、所述优选特征所对应的色值的方差以及所述优选特征所对应的色值位置的标准差,并将所述像素点数量、所述覆盖面积、所述色值的方差以及所述色值位置的标准差带入预设的特征计算公式中得到一下限特征值,进而选取大于所述下限特征值的若干所述最优特征值中的最小值作为最优特征值,并将所述最优特征值对应的特征标记为最优特征;
动作识别单元,连接所述下限处理单元,包括:
运算子单元,用于选取连续两帧人像框位置运动的所述采样图像,并识别得到一对所述采样图像中的一对所述最优特征,进而对一对所述最优特征进行卷积运算得到一对所述最优特征之间的相似度,同时计算得到一对所述最优特征随时间的变化率;
第一识别子单元,连接所述运算子单元,用于在所述相似度大于预设的第一相似阈值且不大于预设的第二相似阈值,同时所述变化率大于预设的变化阈值时生成一人像框平移识别结果,所述第一相似阈值小于所述第二相似阈值;
第二识别子单元,连接所述运算子单元,用于在所述相似度不大于所述第一相似度阈值并持续一预设时间段后,在所述采样图像的其余位置识别得到所述最优特征时生成一人像框切换识别结果;
第三识别子单元,连接所述运算子单元,用于在所述相似度大于所述第一相似阈值且不大于所述第二相似阈值,同时所述变化率不大于所述变化阈值时生成一人像框缩放识别结果;
还原子单元,分别连接所述第一识别子单元、所述第二识别子单元和所述第三识别子单元,用于通过扫掠特征基点分别得到生成所述人像框平移识别结果、所述人像框切换识别结果和所述人像框缩放识别结果时所述最优特征的位置,以根据相应的动作还原算法将若干对连续两帧人像框位置运动的所述采样图像还原得到若干对初始图像;
图像比对模块,连接所述图像处理模块,包括:
图像分割单元,用于选取若干对所述初始图像,并选取若干分割系数将每对所述初始图像依次均匀分割为若干个图像块;
差值计算单元,连接所述图像分割单元,用于计算得到每对所述初始图像在各相同位置处的所述图像块之间的像块差值,进而根据各所述像块差值计算得到在不同分割系数下每对所述初始图像的图像差值,最终选取各所述图像差值中的最小值作为最优图像差值;
阈值比较单元,连接所述差值计算单元,用于将所述最优图像差值与预设的差值阈值进行比较,并在一第一连续时间段中的所述最优图像差值均小于所述差值阈值时,将所述第一连续时间段中任意一帧的所述初始图像保存并作为一张演示文稿图像;
文稿生成模块,连接所述图像比对模块,用于根据若干张连续的所述演示文稿图像生成所述演示文稿。
进一步地,所述图像预处理模块包括:
平滑处理单元,用于对各所述原始图像进行高斯平滑处理,得到相应的平滑图像;
降采样单元,连接所述平滑处理单元,用于对各所述平滑图像进行降采样处理,得到相应的所述采样图像。
进一步地,所述差值计算单元包括:
第一计算子单元,用于将连续两帧的所述初始图像中相同位置处的所述图像块的坐标带入预设的差值计算公式中,计算得到相应的所述像块差值;
第二计算子单元,连接所述第一计算子单元,用于将各所述像块差值带入预设的图像计算公式中,计算得到相应的各所述图像差值。
进一步地,所述差值计算公式配置为:
block_diff[j][i]=diff(B1(j,i),B2(j,i)),i∈[0,n-1],j∈[0,n-1];
其中,n用于表示所述分割系数;
i用于表示所述图像块在所述采样图像中的横坐标;
j用于表示所述图像块在所述采样图像中的纵坐标;
B1(j,i)表示连续两帧中其中一帧所述采样图像中的所述图像块;
B2(j,i)表示连续两帧中其余一帧所述采样图像中的所述图像块;
diff()用于表示预设的差值算法;
block_diff[j][i]用于表示所述像块差值。
进一步地,所述图像计算公式配置为:
其中,candidate_diff[n]用于表示所述图像差值。
进一步地,所述特征选取单元包括:
比对子单元,用于在预设的一连续训练时间段内的若干对所述比对图像进行特征比对,得到若干对图像特征;
第三计算子单元,连接所述比对子单元,用于计算得到每对所述图像特征之间的偏差值;
统计子单元,连接所述第三计算子单元,用于统计每对图像特征在所述连续训练时间段内的出现次数,并根据每对图像特征的所述偏差值和所述出现次数输入预设的出现的出现度计算公式中得到相应的出现度,最终选取最大的所述出现度相对应的一对所述图像特征作为一对所述优选特征。
进一步地,所述出现度计算公式配置为:
Od=kDe+bOC
其中,Od用于表示所述出现度;
k用于表示预设的第一常数;
De用于表示每对图像特征的所述偏差值;
b用于表示预设的第二常数;
OC用于表示所述出现次数。
进一步地,所述特征计算公式配置为:
其中,Llc用于表示所述下限特征值;
a用于表示预设的第三常数;
c用于表示预设的第四常数;
e用于表示预设的第五常数;
PN用于表示所述像素点数量;
Sc用于表示所述覆盖面积;
TV用于表示所述色值的方差;
SD用于表示所述色值位置的标准差。
一种用于商务直播的演示文稿生成方法,应用于上述的用于商务直播的演示文稿生成系统,包括:
步骤S1,视频帧抽取模块引入商务直播的视频流数据,并从所述视频流数据中抽取得到若干帧原始图像,图像预处理模块对若干所述原始图像依次图像预处理,得到相应的采样图像;
步骤S2,特征选取单元将选取若干对连续两帧人像框位置不变的所述采样图像进行特征比对得到一对优选特征,下限处理单元获取得到所述优选特征所在区域内的像素点数量、所述优选特征的覆盖面积、所述优选特征所对应的色值的方差以及所述优选特征所对应的色值位置的标准差,并将所述像素点数量、所述覆盖面积、所述色值的方差以及所述色值位置的标准差带入预设的特征计算公式中得到一下限特征值,进而选取大于所述下限特征值的若干所述最优特征值中的最小值作为最优特征值,并将所述最优特征值对应的特征标记为最优特征;
步骤S3,运算子单元选取连续两帧人像框位置运动的所述采样图像,并识别得到一对所述采样图像中的一对所述最优特征,进而对一对所述最优特征进行卷积运算得到一对所述最优特征之间的相似度,同时计算得到一对所述最优特征随时间的变化率,第一识别子单元在所述相似度大于预设的第一相似阈值且不大于预设的第二相似阈值,同时所述变化率大于预设的变化阈值时生成一人像框平移识别结果,第二识别子单元在所述相似度不大于所述第一相似度阈值并持续一预设时间段后,在所述采样图像的其余位置识别得到所述最优特征时生成一人像框切换识别结果,第三识别子单元在所述相似度大于所述第一相似阈值且不大于所述第二相似阈值,同时所述变化率不大于所述变化阈值时生成一人像框缩放运动识别结果;
步骤S4,还原子单元通过扫掠特征基点分别得到生成所述人像框平移识别结果、所述人像框切换识别结果和所述人像框缩放识别结果时所述最优特征的位置,以根据相应的动作还原算法将若干对连续两帧人像框位置运动的所述采样图像还原得到若干对初始图像;
步骤S5,图像分割单元选取若干对所述初始图像,并选取若干分割系数将每对所述初始图像依次均匀分割为若干个图像块;差值计算单元计算得到每对所述初始图像在各相同位置处的所述图像块之间的像块差值,进而根据各所述像块差值计算得到在不同分割系数下每对所述初始图像的图像差值,最终选取各所述图像差值中的最小值作为最优图像差值;阈值比较单元将所述最优图像差值与预设的差值阈值进行比较,并在一第一连续时间段中的所述最优图像差值均小于所述差值阈值时,将所述第一连续时间段中任意一帧的所述初始图像保存并作为一张演示文稿图像;
步骤S6,文稿生成模块根据若干张连续的所述演示文稿图像生成所述演示文稿。
本发明的有益效果:
本发明首先通过特征选取单元选取人像框固定的若干对采样图像中的最优特征,并通过动作识别单元识别得到人像框运动时的人像框平移、切换及缩放结果,进而还原得到初始图像,实现了对人像框位置发生变动的连续两帧采样图像进行动作识别及还原;本发明还通过通过图像比对模块将若干对初始图像分割为若干图像块,进而通过计算每对图像块在相同位置处的像块差值筛选得到最优图像差值,由于最优图像差值最小,因此连续两帧初始图像之间最接近,有效提升了图像比对的精度,同时有效滤除了直播过程中人像框的影响,可以准确看到到商务直播中演示文稿的内容;最后本发明通过将最优图像差值与差值阈值进行比对,并在第一连续时间段中的最优图像差值小于差值阈值时将第一连续时间段内的初始图像保存作为演示文稿图像,从而实现了自动截取直播过程中的演示文稿,便于观众进行学习。
附图说明
图1是本发明中演示文稿生成系统的结构示意图;
图2是本发明中演示文稿生成方法的步骤流程图。
附图标记:1、视频帧抽取模块;2、图像预处理模块;21、平滑处理单元;22、降采样单元;3、图像处理模块;31、特征选取单元;311、比对子单元;312、第三计算子单元;313、统计子单元;32、下限处理单元;33、动作识别单元;331、运算子单元;332、第一识别子单元;333、第二识别子单元;334、还原子单元;335、第三识别子单元;4、图像比对模块;41、图像分割单元;42、差值计算单元;421、第一计算子单元;422、第二计算子单元;43、阈值比较单元;5、文稿生成模块。
具体实施方式
下面结合附图和实施例,对本发明进一步详细说明。其中相同的零部件用相同的附图标记表示。需要说明的是,下面描述中使用的词语“前”、“后”、“左”、“右”、“上”和“下”指的是附图中的方向,词语“底面”和“顶面”、“内”和“外”分别指的是朝向或远离特定部件几何中心的方向。
如图1所示,本实施例的一种用于商务直播的演示文稿生成系统,包括:
视频帧抽取模块1,用于引入商务直播的视频流数据,并从视频流数据中抽取得到若干帧原始图像;
图像预处理模块2,连接视频帧抽取模块1,用于对若干原始图像依次进行图像预处理,得到相应的采样图像;
图像处理模块3,连接图像预处理模块2,包括:
特征选取单元31,用于将选取若干对连续两帧人像框位置不变的采样图像进行特征比对,处理得到一对优选特征,优选特征包含有若干优选特征值;
下限处理单元32,连接特征选取单元31,用于获取得到优选特征所在区域内的像素点数量、优选特征的覆盖面积、优选特征所对应的色值的方差以及优选特征所对应的色值位置的标准差,并将像素点数量、覆盖面积、色值的方差以及色值位置的标准差带入预设的特征计算公式中得到一下限特征值,进而选取大于下限特征值的若干最优特征值中的最小值作为最优特征值,并将最优特征值对应的特征标记为最优特征;
动作识别单元33,连接下限处理单元32,包括:
运算子单元331,用于选取连续两帧人像框位置运动的采样图像,并识别得到一对采样图像中的一对最优特征,进而对一对最优特征进行卷积运算得到一对最优特征之间的相似度,同时计算得到一对最优特征随时间的变化率;
第一识别子单元332,连接运算子单元331,用于在相似度大于预设的第一相似阈值且不大于预设的第二相似阈值,同时变化率大于预设的变化阈值时生成一人像框平移识别结果,第一相似阈值小于第二相似阈值;
第二识别子单元333,连接运算子单元331,用于在相似度不大于第一相似度阈值并持续一预设时间段后,在采样图像的其余位置识别得到最优特征时生成一人像框切换识别结果;
第三识别子单元335,连接运算子单元331,用于在相似度大于第一相似阈值且不大于第二相似阈值,同时变化率不大于变化阈值时生成一人像框缩放识别结果;
还原子单元334,分别连接第一识别子单元332、第二识别子单元333和第三识别子单元335,用于通过扫掠特征基点分别得到生成人像框平移识别结果、人像框切换识别结果和人像框缩放识别结果时最优特征的位置,以根据相应的动作还原算法将若干对连续两帧人像框位置运动的采样图像还原得到若干对初始图像;
图像比对模块4,连接图像处理模块3,包括:
图像分割单元41,用于选取若干对初始图像,并选取若干分割系数将每对初始图像依次均匀分割为若干个图像块;
差值计算单元42,连接图像分割单元41,用于计算得到每对初始图像在各相同位置处的图像块之间的像块差值,进而根据各像块差值计算得到在不同分割系数下每对初始图像的图像差值,最终选取各图像差值中的最小值作为最优图像差值;
阈值比较单元43,连接差值计算单元42,用于将最优图像差值与预设的差值阈值进行比较,并在一第一连续时间段中的最优图像差值均小于差值阈值时,将第一连续时间段中任意一帧的初始图像保存并作为一张演示文稿图像;
文稿生成模块5,连接图像比对模块4,用于根据若干张连续的演示文稿图像生成演示文稿。
具体地,本实施例中,视频帧抽取模块1引入商务直播过程中的视频流数据,从视频流数据中进行数据帧抽取,得到若干帧原始图像并发送至图像预处理模块2。图像预处理模块2对每张原始图像进行图像预处理得到采样图像,滤除原始图像中的无效量,缩小图像大小,减少后续计算量。
特征选取单元31将若干对采样图像进行特征比对,通过对采样图像中若干图像特征的偏差值和出现次数进行综合计算得到优选特征。下限处理单元32通过获取优选特征所在区域内的像素点数量、优选特征的覆盖面积、优选特征所对应的色值的方差以及优选特征所对应的色值位置的标准差带入特征计算公式得到下限特征值。其中像素点数量和覆盖面积可以反应优选特征在图像中的所占比例,色值的方差和色值位置的标准差用于反映优选特征的与比对图像中其他特征的色值上的显著区分,通过计算得到下限特征值对优选特征值进行过滤,最终选取大于下线特征值的各优选特征值中的最小值作为最优特征值,并将最优特征值所对应的特征作为最优特征,这样设置实现了对比对图像中的最优特征的快速确认,减少数据运算量,满足识别时的快速识别需要。在本实施例中,最优特征用于快速定位人像框的位置。运算子单元331选取连续两帧人像框位置运动的采样图像,并在一对采样图像中识别到刚才限定的一对最优特征,并对一对最优特征卷积运算得到一对最优特征的相似度和一对最优特征随时间的变化率。第一识别子单元332用于对人像框平移运动进行识别,当连续两帧的采集图像中的人像框发生平移运动时,一对最优特征之间的相似度会大于第一相似度阈值且小于第二相似度阈值,同时一对最优特征随时间的变化率较大,此时生成人像框平移识别结果,第一相似度阈值可以为50,第二相似度阈值可以为70,变化阈值可以为30。第二识别子单元用于对人像框切换运动进行识别,当连续两帧的采集图像中的人像框发生切换运动时,后面的采集图像中的最优特征会突然消失一段时间,然后在采样图像的其余位置重新出现能够识别到,因此在最开始位置处的相似度阈值会一直低于50,此时生成人像框切换识别结果。第三识别子单元335用于对人像框缩放运动进行识别,当连续两帧的采集图像中的人像框发生缩放运动时,一对最优特征之间的相似度会处于50至70之间,同时一对最优特征随时间的变化率小于30,此时生成人像框缩放识别结果。还原子单元334通过扫掠特征基点可以得到最优特征的位置,针对人像框平移识别结果、人像框切换识别结果和人像框缩放识别结果分别采用平移还原算法、切换还原算法和缩放还原算法对采样图像中的最优特征的位置进行还原得到初始图像,使得连续两帧的初始图像的最优特征位置相同。
图像比对模块4根据自适应滑动窗口算法对人像框位置被还原到相同位置的初始图像进行比对,用滑动窗口盖住一对初始图像的相同位置,比较一对初始图像中剩余部分的差值,再移动滑窗到不同的位置,分别比较出一对初始图像剩余部分的差值,该过程可以具体为:首先图像分割单元41选取若干对初始图像,并选用若干不同的分割系数将每对初始图像均匀分割为若干个采样块,分割系数与滑动窗口的大小相关,分割系数越大滑动窗口的大小越小,在本实施例中,分割系数可以为3、4和5,对应分割成的采样块的个数分别为9、16和25。差值计算单元42先计算得到每对初始图像在每个相同位置处的图像块之间的像块差值,再根据每个像块差值计算得到不同分割系数下的图像差值,在图像差值的计算过程中,减去了每队初始图像中像块差值最大的一对(人像框),因此实现了对商务直播过程中人像框的扣除,这样算出的像块差值有效剔除了商务直播画面中人像框的影响,可以准确地检测商务直播画面中演示文稿的变化。进而选取不同分割系数下计算得到的图像差值中的最小值作为最优图像差值,图像差值中的最小值表示这对初始图像最接近。第一连续时间段可以为3秒,阈值比较单元43将最优图像差值与差值阈值进行比较,在连续3秒内最优图像差值均小于差值阈值时,表明这对初始图像中的演示文稿画面未发生变化,因此可以选取3秒内的任意一帧的初始图像作为演示文稿图像。文稿生成模块5根据若干张连续的演示文稿图像生成演示文稿并保存,以供观众查看学习,实现了自动截取直播过程中的演示文稿。
优选的,图像预处理模块2包括:
平滑处理单元21,用于对各原始图像进行高斯平滑处理,得到相应的平滑图像;
降采样单元22,连接平滑处理单元21,用于对各平滑图像进行降采样处理,得到相应的采样图像。
具体地,本实施例中,平滑处理单元21对先对连续两帧的采样图像中相同位置处的图像块的灰度矩阵进行离散化窗口滑窗卷积处理得到平滑图像,降采样单元22再对一对平滑图像进行降采样处理,只保留奇数行、奇数列的值,使得采样后的得到的采样图像的大小仅为原来的1/4。
优选的,差值计算单元42包括:
第一计算子单元421,用于将连续两帧的初始图像中相同位置处的图像块的坐标带入预设的差值计算公式中,计算得到相应的像块差值;
第二计算子单元422,连接第一计算子单元421,用于将各像块差值带入预设的图像计算公式中,计算得到相应的各图像差值。
优选的,差值计算公式配置为:
block_diff[j][i]=diff(B1(j,i),B2(j,i)),i∈[0,n-1],j∈[0,n-1];
其中,n用于表示分割系数;
i用于表示图像块在采样图像中的横坐标;
j用于表示图像块在采样图像中的纵坐标;
B1(j,i)表示连续两帧中其中一帧采样图像中的图像块;
B2(j,i)表示连续两帧中其余一帧采样图像中的图像块;
diff()用于表示预设的差值算法;
block_diff[j][i]用于表示像块差值。
优选的,图像计算公式配置为:
其中,candidate_diff[n]用于表示图像差值。
具体地,本实施例中,分割系数包括3,4,5。该图像计算公式需要分别计算分割系数在3,4,5的情况下的图像差值,并从中选取最小值作为最优图像差值。
优选的,特征选取单元31包括:
比对子单元411,用于在预设的一连续训练时间段内的若干对比对图像进行特征比对,得到若干对图像特征;
第三计算子单元412,连接比对子单元411,用于计算得到每对图像特征之间的偏差值;
统计子单元413,连接第三计算子单元412,用于统计每对图像特征在连续训练时间段内的出现次数,并根据每对图像特征的偏差值和出现次数输入预设的出现的出现度计算公式中得到相应的出现度,最终选取最大的出现度相对应的一对图像特征作为一对优选特征。
具体地,本实施例中,连续训练时间段可以为30分钟,比对子单元411将30分钟内的各对比对图像进行特征比对,每对比对图像得到一对图像特征;第三计算子单元412对每对图像特征之间的偏差进行计算,得到若干偏差值;统计子单元413统计每对图像特征在30分钟内的出现次数,进而根据出现次数和偏差值计算得到每对图像特征的出现度,最终从若干出现度中挑选出最大值,并将最大的出现度所对应的一对图像特征作为一对优选特征,表示易于识别的具有代表性的特征。
优选的,出现度计算公式配置为:
Od=kDe+bOC
其中,Od用于表示出现度;
k用于表示预设的第一常数;
De用于表示每对图像特征的偏差值;
b用于表示预设的第二常数;
OC用于表示出现次数。
优选的,特征计算公式配置为:
其中,Llc用于表示下限特征值;
a用于表示预设的第三常数;
c用于表示预设的第四常数;
e用于表示预设的第五常数;
PN用于表示像素点数量;
Sc用于表示覆盖面积;
TV用于表示色值的方差;
SD用于表示色值位置的标准差。
一种用于商务直播的演示文稿生成方法,应用于上述的用于商务直播的演示文稿生成系统,如图2所示,包括:
步骤S1,视频帧抽取模块1引入商务直播的视频流数据,并从视频流数据中抽取得到若干帧原始图像,图像预处理模块2对若干原始图像依次图像预处理,得到相应的采样图像;
步骤S2,特征选取单元31将选取若干对连续两帧人像框位置不变的采样图像进行特征比对得到一对优选特征,下限处理单元32获取得到优选特征所在区域内的像素点数量、优选特征的覆盖面积、优选特征所对应的色值的方差以及优选特征所对应的色值位置的标准差,并将像素点数量、覆盖面积、色值的方差以及色值位置的标准差带入预设的特征计算公式中得到一下限特征值,进而选取大于下限特征值的若干最优特征值中的最小值作为最优特征值,并将最优特征值对应的特征标记为最优特征;
步骤S3,运算子单元331选取连续两帧人像框位置运动的采样图像,并识别得到一对采样图像中的一对最优特征,进而对一对最优特征进行卷积运算得到一对最优特征之间的相似度,同时计算得到一对最优特征随时间的变化率,第一识别子单元332在相似度大于预设的第一相似阈值且不大于预设的第二相似阈值,同时变化率大于预设的变化阈值时生成一人像框平移识别结果,第二识别子单元333在相似度不大于第一相似度阈值并持续一预设时间段后,在采样图像的其余位置识别得到最优特征时生成一人像框切换识别结果,第三识别子单元335在相似度大于第一相似阈值且不大于第二相似阈值,同时变化率不大于变化阈值时生成一人像框缩放运动识别结果;
步骤S4,还原子单元334通过扫掠特征基点分别得到生成人像框平移识别结果、人像框切换识别结果和人像框缩放识别结果时最优特征的位置,以根据相应的动作还原算法将若干对连续两帧人像框位置运动的采样图像还原得到若干对初始图像;
步骤S5,图像分割单元41选取若干对初始图像,并选取若干分割系数将每对初始图像依次均匀分割为若干个图像块;差值计算单元42计算得到每对初始图像在各相同位置处的图像块之间的像块差值,进而根据各像块差值计算得到在不同分割系数下每对初始图像的图像差值,最终选取各图像差值中的最小值作为最优图像差值;阈值比较单元43将最优图像差值与预设的差值阈值进行比较,并在一第一连续时间段中的最优图像差值均小于差值阈值时,将第一连续时间段中任意一帧的初始图像保存并作为一张演示文稿图像;
步骤S6,文稿生成模块5根据若干张连续的演示文稿图像生成演示文稿。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种用于商务直播的演示文稿生成系统,其特征在于:
视频帧抽取模块(1),用于引入商务直播的视频流数据,并从所述视频流数据中抽取得到若干帧原始图像;
图像预处理模块(2),连接所述视频帧抽取模块(1),用于对若干所述原始图像依次进行图像预处理,得到相应的采样图像;
图像处理模块(3),连接所述图像预处理模块(2),包括:
特征选取单元(31),用于将选取若干对连续两帧人像框位置不变的所述采样图像进行特征比对,处理得到一对优选特征,所述优选特征包含有若干优选特征值;
下限处理单元(32),连接所述特征选取单元(31),用于获取得到所述优选特征所在区域内的像素点数量、所述优选特征的覆盖面积、所述优选特征所对应的色值的方差以及所述优选特征所对应的色值位置的标准差,并将所述像素点数量、所述覆盖面积、所述色值的方差以及所述色值位置的标准差带入预设的特征计算公式中得到一下限特征值,进而选取大于所述下限特征值的若干所述优选特征值中的最小值作为最优特征值,并将所述最优特征值对应的特征标记为最优特征;
动作识别单元(33),连接所述下限处理单元(32),包括:
运算子单元(331),用于选取连续两帧人像框位置运动的所述采样图像,并识别得到一对所述采样图像中的一对所述最优特征,进而对一对所述最优特征进行卷积运算得到一对所述最优特征之间的相似度,同时计算得到一对所述最优特征随时间的变化率;
第一识别子单元(332),连接所述运算子单元(331),用于在所述相似度大于预设的第一相似阈值且不大于预设的第二相似阈值,同时所述变化率大于预设的变化阈值时生成一人像框平移识别结果,所述第一相似阈值小于所述第二相似阈值;
第二识别子单元(333),连接所述运算子单元(331),用于在所述相似度不大于所述第一相似阈值并持续一预设时间段后,在所述采样图像的其余位置识别得到所述最优特征时生成一人像框切换识别结果;
第三识别子单元(335),连接所述运算子单元(331),用于在所述相似度大于所述第一相似阈值且不大于所述第二相似阈值,同时所述变化率不大于所述变化阈值时生成一人像框缩放识别结果;
还原子单元(334),分别连接所述第一识别子单元(332)、所述第二识别子单元(333)和所述第三识别子单元(335),用于通过扫掠特征基点分别得到生成所述人像框平移识别结果、所述人像框切换识别结果和所述人像框缩放识别结果时所述最优特征的位置,以根据相应的动作还原算法将若干对连续两帧人像框位置运动的所述采样图像还原得到若干对初始图像;
图像比对模块(4),连接所述图像处理模块(3),包括:
图像分割单元(41),用于选取若干对所述初始图像,并选取若干分割系数将每对所述初始图像依次均匀分割为若干个图像块;
差值计算单元(42),连接所述图像分割单元(41),用于计算得到每对所述初始图像在各相同位置处的所述图像块之间的像块差值,进而根据各所述像块差值计算得到在不同分割系数下每对所述初始图像的图像差值,最终选取各所述图像差值中的最小值作为最优图像差值;
阈值比较单元(43),连接所述差值计算单元(42),用于将所述最优图像差值与预设的差值阈值进行比较,并在一第一连续时间段中的所述最优图像差值均小于所述差值阈值时,将所述第一连续时间段中任意一帧的所述初始图像保存并作为一张演示文稿图像;
文稿生成模块(5),连接所述图像比对模块(4),用于根据若干张连续的所述演示文稿图像生成所述演示文稿。
2.根据权利要求1所述的用于商务直播的演示文稿生成系统,其特征在于,所述图像预处理模块(2)包括:
平滑处理单元(21),用于对各所述原始图像进行高斯平滑处理,得到相应的平滑图像;
降采样单元(22),连接所述平滑处理单元(21),用于对各所述平滑图像进行降采样处理,得到相应的所述采样图像。
3.根据权利要求1所述的用于商务直播的演示文稿生成系统,其特征在于,所述差值计算单元(42)包括:
第一计算子单元(421),用于将连续两帧的所述初始图像中相同位置处的所述图像块的坐标带入预设的差值计算公式中,计算得到相应的所述像块差值;
第二计算子单元(422),连接所述第一计算子单元(421),用于将各所述像块差值带入预设的图像计算公式中,计算得到相应的各所述图像差值。
4.根据权利要求3所述的用于商务直播的演示文稿生成系统,其特征在于,所述差值计算公式配置为:
其中,用于表示所述分割系数;
用于表示所述图像块在所述采样图像中的横坐标;
用于表示所述图像块在所述采样图像中的纵坐标;
表示连续两帧中其中一帧所述采样图像中的所述图像块;
表示连续两帧中其余一帧所述采样图像中的所述图像块;
用于表示预设的差值算法;
用于表示所述像块差值。
5.根据权利要求4所述的用于商务直播的演示文稿生成系统,其特征在于:所述图像计算公式配置为:
其中,用于表示所述图像差值。
6.根据权利要求1所述的用于商务直播的演示文稿生成系统,其特征在于:所述特征选取单元(31)包括:
比对子单元(311),用于在预设的一连续训练时间段内的若干对所述比对图像进行特征比对,得到若干对图像特征;
第三计算子单元(312),连接所述比对子单元(311),用于计算得到每对所述图像特征之间的偏差值;
统计子单元(313),连接所述第三计算子单元(312),用于统计每对图像特征在所述连续训练时间段内的出现次数,并根据每对图像特征的所述偏差值和所述出现次数输入预设的出现的出现度计算公式中得到相应的出现度,最终选取最大的所述出现度相对应的一对所述图像特征作为一对所述优选特征。
7.根据权利要求6所述的用于商务直播的演示文稿生成系统,其特征在于,所述出现度计算公式配置为:
其中,用于表示所述出现度;
用于表示预设的第一常数;
用于表示每对图像特征的所述偏差值;
用于表示预设的第二常数;
用于表示所述出现次数。
8.根据权利要求1所述的用于商务直播的演示文稿生成系统,其特征在于,所述特征计算公式配置为:
其中,用于表示所述下限特征值;
用于表示预设的第三常数;
用于表示预设的第四常数;
用于表示预设的第五常数;
用于表示所述像素点数量;
用于表示所述覆盖面积;
用于表示所述色值的方差;
用于表示所述色值位置的标准差。
9.一种用于商务直播的演示文稿生成方法,应用于权利要求1-8中任意一项所述的用于商务直播的演示文稿生成系统,其特征在于,包括:
步骤S1,视频帧抽取模块(1)引入商务直播的视频流数据,并从所述视频流数据中抽取得到若干帧原始图像,图像预处理模块(2)对若干所述原始图像依次图像预处理,得到相应的采样图像;
步骤S2,特征选取单元(31)将选取若干对连续两帧人像框位置不变的所述采样图像进行特征比对得到一对优选特征,所述优选特征包含有若干优选特征值,下限处理单元(32)获取得到所述优选特征所在区域内的像素点数量、所述优选特征的覆盖面积、所述优选特征所对应的色值的方差以及所述优选特征所对应的色值位置的标准差,并将所述像素点数量、所述覆盖面积、所述色值的方差以及所述色值位置的标准差带入预设的特征计算公式中得到一下限特征值,进而选取大于所述下限特征值的若干所述优选特征值中的最小值作为最优特征值,并将所述最优特征值对应的特征标记为最优特征;
步骤S3,运算子单元(331)选取连续两帧人像框位置运动的所述采样图像,并识别得到一对所述采样图像中的一对所述最优特征,进而对一对所述最优特征进行卷积运算得到一对所述最优特征之间的相似度,同时计算得到一对所述最优特征随时间的变化率,第一识别子单元(332)在所述相似度大于预设的第一相似阈值且不大于预设的第二相似阈值,同时所述变化率大于预设的变化阈值时生成一人像框平移识别结果,所述第一相似阈值小于所述第二相似阈值,第二识别子单元(333)在所述相似度不大于所述第一相似阈值并持续一预设时间段后,在所述采样图像的其余位置识别得到所述最优特征时生成一人像框切换识别结果,第三识别子单元(335)在所述相似度大于所述第一相似阈值且不大于所述第二相似阈值,同时所述变化率不大于所述变化阈值时生成一人像框缩放识别结果;
步骤S4,还原子单元(334)通过扫掠特征基点分别得到生成所述人像框平移识别结果、所述人像框切换识别结果和所述人像框缩放识别结果时所述最优特征的位置,以根据相应的动作还原算法将若干对连续两帧人像框位置运动的所述采样图像还原得到若干对初始图像;
步骤S5,图像分割单元(41)选取若干对所述初始图像,并选取若干分割系数将每对所述初始图像依次均匀分割为若干个图像块;差值计算单元(42)计算得到每对所述初始图像在各相同位置处的所述图像块之间的像块差值,进而根据各所述像块差值计算得到在不同分割系数下每对所述初始图像的图像差值,最终选取各所述图像差值中的最小值作为最优图像差值;阈值比较单元(43)将所述最优图像差值与预设的差值阈值进行比较,并在一第一连续时间段中的所述最优图像差值均小于所述差值阈值时,将所述第一连续时间段中任意一帧的所述初始图像保存并作为一张演示文稿图像;
步骤S6,文稿生成模块(5)根据若干张连续的所述演示文稿图像生成所述演示文稿。
CN202210918184.4A 2022-08-01 2022-08-01 一种用于商务直播的演示文稿生成系统及方法 Active CN115396726B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210918184.4A CN115396726B (zh) 2022-08-01 2022-08-01 一种用于商务直播的演示文稿生成系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210918184.4A CN115396726B (zh) 2022-08-01 2022-08-01 一种用于商务直播的演示文稿生成系统及方法

Publications (2)

Publication Number Publication Date
CN115396726A CN115396726A (zh) 2022-11-25
CN115396726B true CN115396726B (zh) 2024-05-07

Family

ID=84118485

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210918184.4A Active CN115396726B (zh) 2022-08-01 2022-08-01 一种用于商务直播的演示文稿生成系统及方法

Country Status (1)

Country Link
CN (1) CN115396726B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184182A (zh) * 2011-03-24 2011-09-14 中国华录集团有限公司 面向视频的基于时间点和关键词的增值信息系统
CN104504717A (zh) * 2014-12-31 2015-04-08 北京奇艺世纪科技有限公司 一种图像信息检测方法及装置
WO2016037423A1 (zh) * 2014-09-12 2016-03-17 刘鹏 基于自适应阈值的视频场景变化检测方法
CN110414352A (zh) * 2019-06-26 2019-11-05 深圳市容会科技有限公司 从视频文件中提取ppt文件信息的方法及相关设备
CN111429376A (zh) * 2020-03-30 2020-07-17 北京芯龙德大数据科技有限公司 高低精度融合的高效数字图像处理方法
CN111507352A (zh) * 2020-04-16 2020-08-07 腾讯科技(深圳)有限公司 一种图像处理方法、装置、计算机设备以及存储介质
CN111797599A (zh) * 2020-06-30 2020-10-20 韶关市启之信息技术有限公司 一种会议记录抽取与ppt插入方法与系统
CN112990191A (zh) * 2021-01-06 2021-06-18 中国电子科技集团公司信息科学研究院 一种基于字幕视频的镜头边界检测与关键帧提取方法
WO2021213158A1 (zh) * 2020-04-20 2021-10-28 厦门亿联网络技术股份有限公司 一种智能视频会议终端的实时人脸摘要服务的方法及系统
CN114021541A (zh) * 2021-11-18 2022-02-08 平安普惠企业管理有限公司 演示文稿生成方法、装置、设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184182A (zh) * 2011-03-24 2011-09-14 中国华录集团有限公司 面向视频的基于时间点和关键词的增值信息系统
WO2016037423A1 (zh) * 2014-09-12 2016-03-17 刘鹏 基于自适应阈值的视频场景变化检测方法
CN104504717A (zh) * 2014-12-31 2015-04-08 北京奇艺世纪科技有限公司 一种图像信息检测方法及装置
CN110414352A (zh) * 2019-06-26 2019-11-05 深圳市容会科技有限公司 从视频文件中提取ppt文件信息的方法及相关设备
CN111429376A (zh) * 2020-03-30 2020-07-17 北京芯龙德大数据科技有限公司 高低精度融合的高效数字图像处理方法
CN111507352A (zh) * 2020-04-16 2020-08-07 腾讯科技(深圳)有限公司 一种图像处理方法、装置、计算机设备以及存储介质
WO2021213158A1 (zh) * 2020-04-20 2021-10-28 厦门亿联网络技术股份有限公司 一种智能视频会议终端的实时人脸摘要服务的方法及系统
CN111797599A (zh) * 2020-06-30 2020-10-20 韶关市启之信息技术有限公司 一种会议记录抽取与ppt插入方法与系统
CN112990191A (zh) * 2021-01-06 2021-06-18 中国电子科技集团公司信息科学研究院 一种基于字幕视频的镜头边界检测与关键帧提取方法
CN114021541A (zh) * 2021-11-18 2022-02-08 平安普惠企业管理有限公司 演示文稿生成方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN115396726A (zh) 2022-11-25

Similar Documents

Publication Publication Date Title
US8934545B2 (en) Extraction of video fingerprints and identification of multimedia using video fingerprinting
US6504942B1 (en) Method of and apparatus for detecting a face-like region and observer tracking display
US20110164823A1 (en) Video object extraction apparatus and method
CN109685045B (zh) 一种运动目标视频跟踪方法及系统
US8355079B2 (en) Temporally consistent caption detection on videos using a 3D spatiotemporal method
US11037308B2 (en) Intelligent method for viewing surveillance videos with improved efficiency
CN110059634B (zh) 一种大场景人脸抓拍方法
CN111738211B (zh) 基于动态背景补偿与深度学习的ptz摄像机运动目标检测与识别方法
US8311269B2 (en) Blocker image identification apparatus and method
CN112991159B (zh) 人脸光照质量评估方法、系统、服务器与计算机可读介质
CN114359333A (zh) 运动目标提取方法、装置、计算机设备和存储介质
CN111897433A (zh) 一种集成成像显示系统中实现动态手势识别与控制方法
CN115396726B (zh) 一种用于商务直播的演示文稿生成系统及方法
CN109493293A (zh) 一种图像处理方法及装置、显示设备
JPH08210847A (ja) 画像処理方法
WO2016199418A1 (en) Frame rate conversion system
JPH10222678A (ja) 物体検出装置および物体検出方法
Szlávik et al. Face analysis using CNN-UM
CN112085683B (zh) 一种显著性检测中的深度图可信度检测方法
CN114387440A (zh) 一种视频裁剪方法、装置及存储介质
Zhou et al. Human recognition based on face profiles in video
CN111242189B (zh) 特征提取方法、装置及终端设备
CN112967288A (zh) 一种多媒体数据处理方法、通信设备及可读存储介质
Ren et al. Detection of dirt impairments from archived film sequences: survey and evaluations
CN110309739A (zh) 一种基于改进vibe的手势检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant