CN113485615A - 基于计算机视觉的典型应用智能图文教程制作的方法及系统 - Google Patents

基于计算机视觉的典型应用智能图文教程制作的方法及系统 Download PDF

Info

Publication number
CN113485615A
CN113485615A CN202110745694.1A CN202110745694A CN113485615A CN 113485615 A CN113485615 A CN 113485615A CN 202110745694 A CN202110745694 A CN 202110745694A CN 113485615 A CN113485615 A CN 113485615A
Authority
CN
China
Prior art keywords
mouse
user
click
key
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110745694.1A
Other languages
English (en)
Other versions
CN113485615B (zh
Inventor
柯逍
苏凯婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202110745694.1A priority Critical patent/CN113485615B/zh
Publication of CN113485615A publication Critical patent/CN113485615A/zh
Application granted granted Critical
Publication of CN113485615B publication Critical patent/CN113485615B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04845Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range for image manipulation, e.g. dragging, rotation, expansion or change of colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/0486Drag-and-drop
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/80Creating or modifying a manually drawn or painted image using a manual input device, e.g. mouse, light pen, direction keys on keyboard

Abstract

本发明涉及一种基于计算机视觉的典型应用智能图文教程制作的方法及系统,该方法包括实时操作过程和录屏操作过程,实时操作过程包括:A1、获取用户操作过程中的鼠标和键盘操作,分析鼠键操作对应的典型软件操作内容;A2、对操作内容进行筛选,判定其关键程度,对包含关键文字信息的操作进行用户屏幕区域提取;A3、对提取到的区域进行文字内容识别,将用户操作画面与提取所得文字进行编排,写入文档;录屏操作过程包括:B1、对输入视频进行关键帧提取,识别录屏操作中关键内容;B2、对获取的关键帧内容进行鼠标检测,标定操作位置,整理标定操作位置后的关键帧,写入文档。该方法及系统可以有效地识别用户操作内容,智能化生成操作文档。

Description

基于计算机视觉的典型应用智能图文教程制作的方法及系统
技术领域
本发明属于计算机视觉领域,具体涉及一种基于计算机视觉的典型应用智能图文教程制作的方法及系统。
背景技术
关键帧提取即KeyFrame Extraction其主要任务是将给定视频准换为一组图像序列,找到图像序列中具有关键内容的帧,剔除大量的过渡帧。减少视频数据量过大带来的数据处理成本增加。目前学术界在关键帧提取问题上采用的主要方法包括基于聚类的分析方法和基于运动的光流分析法。
目标检测即ObjectDetection其主要任务是对给定的图片识别其中包含的目标并进行分类。目前学术界在目标检测问题上采用的主要方法包括多阶段的R-CNN系列算法和单阶段的YOLO系列,SSD算法等。通过预测检测目标在图片当中的候选区域,给与候选框和分类结果置信度参数,相较于R-CNN系列算法,YOLO系列算法的速度更快。
发明内容
本发明的目的在于提供一种基于计算机视觉的典型应用智能图文教程制作的方法及系统,该方法及系统可以有效地识别用户操作内容,智能化生成操作文档。
为实现上述目的,本发明采用的技术方案是:一种基于计算机视觉的典型应用智能图文教程制作的方法,包括实时操作过程和录屏操作过程,所述实时操作过程包括以下步骤:
步骤A1:获取用户操作过程中的鼠标和键盘操作,分析鼠标和键盘操作对应的典型软件操作内容;
步骤A2:对获取到的操作内容进行筛选,判定其关键程度,对包含关键文字信息的操作进行用户屏幕区域提取;
步骤A3:对提取到的区域进行文字内容识别,将用户操作画面与提取所得文字进行编排,写入文档;
所述录屏操作过程包括以下步骤:
步骤B1:对输入视频进行关键帧提取,识别录屏操作中关键内容,过滤多余的帧;
步骤B2:对获取到的关键帧内容进行鼠标检测,标定操作位置,整理标定操作位置后的关键帧,写入文档。
进一步地,所述步骤A1具体包括以下步骤:
步骤A11:对用户实时操作内容进行鼠标和键盘事件的检测,记录操作时的鼠标位置和键盘输入;
步骤A12:对检测结果进行分析,将用户操作分为鼠标点击操作和文字输入操作两大类别;鼠标点击操作进一步划分为左击、右击、双击、拖动;鼠标左击对应用户进行典型应用按钮单击操作,鼠标右击对应用户进行典型应用隐藏菜单栏或二级快捷菜单栏的展开;鼠标双击对应用户进行典型应用的打开文件或文件架操作;鼠标拖动对应用户进行典型应用物体选中后位置调整操作或文字选中操作;
步骤A13:根据实时检测返回事件名称直接进行左击,右击判定;在此基础上利用前后两次左击位置判定是否进行双击,当第二次点击位置(xsec,ysec)包含于第一点击位置(xfir,yfir)加上允许用户操作时出现的偏移量Δd当中,减小用户点击操作的微小抖动对判定结果产生的影响,即满足(xsec,ysec)∈(xfird,yfird)时,其中(xfir,yfir)表示第一次点击的像素坐标,置(xsec,ysec)表示第二次点击的像素坐标,Δd表示因用户操作出现的偏移量;判定用户进行双击操作;
步骤A14:对出现的鼠标拖动操作进行进一步判定,进行用户鼠标移动位置记录,判定鼠标拖动路径是否满足水平方向或竖直方向上的直线拖动;以用户鼠标按下位置作为起点判定鼠标松开位置是否在以起点为中心的十字范围内,将属于十字范围内的鼠标拖动操作判定为文字水平或竖直方向的选中。
进一步地,所述步骤A2具体包括以下步骤:
步骤A21:截取用户进行鼠标点击操作的屏幕画面,记录鼠标点击位置;
步骤A22:截取以鼠标为中心,大小为用户屏幕二十五分之一的固定区域;将获得的固定区域图片转为灰度图,进行二值化处理;分别在水平方向和竖直方向对像素进行投影得到投影直方图T;将直方图看成长度为照片长度或宽度大小的列表T={p1,p2,p3...,pn},p1、p2、p3至pn分别表示第1、2、3至n行或列的投影值,n表示图片的长或宽;判断直方图当中是否存在p值为零列;
若不存在p值为零列则进一步对直方图数据进行处理,计算方法为:
pmin=Min(T)=Min{p1,p2,p3...,pn}
T′={(p1-pmin),(p2-pmin),(p3-pmin)...,(pn-pmin)}
其中pmin表示投影数据当中的最小值,Min(T)表示列表T中的最小值,Min{p1,p2,p3...,pn}表示在p1至pn数值中的最小值;T′表示经过处理后的投影数据,将各列数值减去T中的pmin获得零列;
步骤A23:分别选取水平投影直方图中与垂直投影直方图当中离鼠标点击位置最近的连续最大非零区域作为候选区域。
进一步地,所述步骤A3具体包括以下步骤:
步骤A31:对获得的候选区域进行文字识别;
步骤A32:截取用户操作画面,根据鼠标点击位置或文字输入位置标定红框;
步骤A33:将获取的文字和产出图片进行整合,自动生成一文一图形式的文档。
进一步地,所述步骤B1具体包括以下步骤:
步骤B11:对输入数据进行提取,将视频流转换为帧序列,对每一帧进行灰度化和高斯滤波操作;
步骤B12:采用批处理,对每相邻10帧之间进行帧间差值处理,得到差值列表;对差值列表进行平滑,采用窗口内峰值方法选取关键帧;
步骤B13:重新将输入数据转换为帧序列,保存上述各个窗口内所选取的关键帧。
进一步地,所述帧间差值处理是对前后帧间进行绝对值差分,所述前后帧表示中间相差8帧的两帧;通过帧间差值方式得到图像变化区域;帧间差值的计算方法如下:
Δt(x,y)=|It(x,y)-It-1(x,y)|
其中It(x,y)表示在第t时刻(x,y)像素点位置的像素值,It-1(x,y)表示在t时刻的上一秒(x,y)像素点位置的像素值;差分后结果进行二值化处理计算方法如下:
Figure BDA0003142624500000031
其中Δt(x,y)表示前后时刻像素点间的差值,u表示阈值,Bt(x,y)表示二值化后(x,y)处的结果;根据差值的大小是否大于某个阈值u来进行0或1的转化;最后将图像矩阵当中的二值化结果Bt(x,y)进行相加转换为一维数据;
选择适应于用户操作当中鼠标移动速度每30帧进行一次关键步骤操作的频率,选取大小为5的窗口进行峰值选取。
进一步地,所述步骤B2具体包括以下步骤:
步骤B21:模型输入数据预处理,提取鼠标图片和常用软件操作图,将鼠标在操作图中进行随机位置拼接,获得拼接图和鼠标拼接位置数据;
步骤B22:模型训练完毕获得相对应权重,在本地对关键帧进行推理,根据推理结果选择置信度最高位置作为鼠标位置,进行鼠标位置标定;
步骤B23:对标定后关键帧按照一文一图排版进行自动文档生成。
本发明还提供了一种基于计算机视觉的典型应用智能图文教程制作的系统,包括存储器、处理器以及存储于存储器上并能够被处理器运行的程序指令,当处理器运行该程序指令时,能够实现上述的方法步骤。
与现有技术相比,本发明具有以下有益效果:本发明能够有效地识别用户操作内容,分析和记录关键性操作内容,智能化生成操作文档。同时,针对输入的视频数据,有效提取视频当中关键内容,减少视频数据带来的信息膨胀,对关键内容进行操作位置识别,进行操作文档整合。本发明识别键盘和鼠标操作转换为典型应用内容上操作,划分多类型鼠标操作,类型齐全,并自动筛除空白点击,精确获取用户操作内容。此外,通过投影法选取连续最大非零区间作为文字识别候选区,规避非关键信息对提取操作的干扰,保证提取信息的准确性和完整性。本发明还采用间隔多帧的批处理方法,减少关键帧提取时长,对帧间差值进行平滑处理,减少噪声带来的毛刺,适应用户操作频率,选取适当窗口大小,提取窗口内峰值最为关键帧,避免出现高峰值处重复提取。
附图说明
图1是本发明实施例的方法实现流程图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本实施例提供了一种基于计算机视觉的典型应用智能图文教程制作的方法,包括实时操作过程和录屏操作过程。
在本实施例中,所述实时操作过程包括以下步骤:
步骤A1:获取用户操作过程中的鼠标和键盘操作,分析鼠标和键盘操作对应的典型软件操作内容。具体包括以下步骤:
步骤A11:对用户实时操作内容进行鼠标和键盘事件的检测,记录操作时的鼠标位置和键盘输入。
步骤A12:对检测结果进行分析,将用户操作分为鼠标点击操作和文字输入操作两大类别。鼠标点击操作进一步划分为左击、右击、双击、拖动等。鼠标左击对应用户进行典型应用按钮单击操作,鼠标右击对应用户进行典型应用隐藏菜单栏或二级快捷菜单栏的展开。鼠标双击对应用户进行典型应用的打开文件或文件架操作。鼠标拖动对应用户进行典型应用物体选中后位置调整操作或文字选中操作。
步骤A13:根据实时检测返回事件名称直接进行左击,右击判定。在此基础上利用前后两次左击位置判定是否进行双击,当第二次点击位置(xsec,ysec)包含于第一点击位置(xfir,yfir)加上允许用户操作时出现的偏移量Δd当中,Δd一般选取5像素大小,减小用户点击操作的微小抖动对判定结果产生的影响,即满足(xsec,ysec)∈(xfird,yfird)时,其中(xfir,yfir)表示第一次点击的像素坐标,置(xsec,ysec)表示第二次点击的像素坐标,Δd表示因用户操作出现的偏移量。判定用户进行双击操作。
步骤A14:对出现的鼠标拖动操作进行进一步判定,进行用户鼠标移动位置记录,判定鼠标拖动路径是否满足水平方向或竖直方向上的直线拖动。以用户鼠标按下位置作为起点判定鼠标松开位置是否在以起点为中心的十字范围内,将属于十字范围内的鼠标拖动操作判定为文字水平或竖直方向的选中。
步骤A2:对获取到的操作内容进行筛选,判定其关键程度,对包含关键文字信息的操作进行用户屏幕区域提取。具体包括以下步骤:
步骤A21:截取用户进行鼠标点击操作的屏幕画面,记录鼠标点击位置。
步骤A22:截取以鼠标为中心,大小为用户屏幕二十五分之一的固定区域。将获得的固定区域图片转为灰度图,进行二值化处理。分别在水平方向和竖直方向对像素进行投影得到投影直方图T。将直方图看成长度为照片长度或宽度大小的列表T={p1,p2,p3...,pn},p1、p2、p3至pn分别表示第1、2、3至n行或列的投影值,n表示图片的长或宽。判断直方图当中是否存在p值为零列。
若不存在p值为零列则进一步对直方图数据进行处理,计算方法为:
pmin=Min(T)=Min{p1,p2,p3...,pn}
T′={(p1-pmin),(p2-pmin),(p3-pmin)...,(pn-pmin)}
其中pmin表示投影数据当中的最小值,Min(T)表示列表T中的最小值,Min{p1,p2,p3...,pn}表示在p1至pn数值中的最小值。T′表示经过处理后的投影数据,将各列数值减去T中的pmin获得零列。
步骤A23:分别选取水平投影直方图中与垂直投影直方图当中离鼠标点击位置最近的连续最大非零区域作为候选区域。
键盘的信息主要就是用户键入的字符,通过钩子函数可以准确的得到用户键入的字符内容,无需其他操作进行判断。
步骤A3:对提取到的感兴趣区域进行文字内容识别,将用户操作画面与提取所得文字进行编排,写入文档。具体包括以下步骤:
步骤A31:对获得的候选区域进行文字识别。
步骤A32:截取用户操作画面,根据鼠标点击位置或文字输入位置标定红框。
步骤A33:将获取的文字和产出图片进行整合,自动生成一文一图形式的文档。
在本实施例中,所述录屏操作过程包括以下步骤:
步骤B1:对输入视频进行关键帧提取,识别录屏操作中关键内容,过滤多余的帧。具体包括以下步骤:
步骤B11:对输入数据进行提取,将视频流转换为帧序列,对每一帧进行灰度化和高斯滤波操作。
步骤B12:采用批处理,对每相邻10帧之间进行帧间差值处理,得到差值列表。对差值列表进行平滑,最初选定指定帧数K帧作为关键帧,容易导致在差值列表峰值处出现多次重复选取现象。后采用窗口内峰值方法选取关键帧。
所述帧间差值处理是对前后帧间进行绝对值差分,所述前后帧表示中间相差8帧的两帧。通过帧间差值方式得到图像变化区域。帧间差值的计算方法如下:
Δt(x,y)=|It(x,y)-It-1(x,y)|
其中It(x,y)表示在第t时刻(x,y)像素点位置的像素值,It-1(x,y)表示在t时刻的上一秒(x,y)像素点位置的像素值。差分后结果进行二值化处理计算方法如下:
Figure BDA0003142624500000061
其中Δt(x,y)表示前后时刻像素点间的差值,u表示阈值,Bt(x,y)表示二值化后(x,y)处的结果。根据差值的大小是否大于某个阈值u来进行0或1的转化。最后将图像矩阵当中的二值化结果Bt(x,y)进行相加转换为一维数据。
选择适应于用户操作当中鼠标移动速度大致为每30帧进行一次关键步骤操作的频率,选取大小为5的窗口进行峰值选取。
步骤B13:重新将输入数据转换为帧序列,保存上述各个窗口内所选取的关键帧。
步骤B2:对获取到的关键帧内容进行鼠标检测,标定操作位置,整理标定操作位置后的关键帧,写入文档。具体包括以下步骤:
步骤B21:模型输入数据预处理,提取鼠标图片和常用软件操作图,将鼠标在操作图中进行随机位置拼接,获得拼接图和鼠标拼接位置数据。
步骤B22:模型训练完毕获得相对应权重,在本地对关键帧进行推理,根据推理结果选择置信度最高位置作为鼠标位置,进行鼠标位置标定。
步骤B23:对标定后关键帧按照一文一图排版进行自动文档生成。
本实施例还提供了一种基于计算机视觉的典型应用智能图文教程制作的系统,包括存储器、处理器以及存储于存储器上并能够被处理器运行的程序指令,当处理器运行该程序指令时,能够实现上述的方法步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

Claims (8)

1.一种基于计算机视觉的典型应用智能图文教程制作的方法,其特征在于,包括实时操作过程和录屏操作过程,所述实时操作过程包括以下步骤:
步骤A1:获取用户操作过程中的鼠标和键盘操作,分析鼠标和键盘操作对应的典型软件操作内容;
步骤A2:对获取到的操作内容进行筛选,判定其关键程度,对包含关键文字信息的操作进行用户屏幕区域提取;
步骤A3:对提取到的区域进行文字内容识别,将用户操作画面与提取所得文字进行编排,写入文档;
所述录屏操作过程包括以下步骤:
步骤B1:对输入视频进行关键帧提取,识别录屏操作中关键内容,过滤多余的帧;
步骤B2:对获取到的关键帧内容进行鼠标检测,标定操作位置,整理标定操作位置后的关键帧,写入文档。
2.根据权利要求1所述的基于计算机视觉的典型应用智能图文教程制作的方法,其特征在于,所述步骤A1具体包括以下步骤:
步骤A11:对用户实时操作内容进行鼠标和键盘事件的检测,记录操作时的鼠标位置和键盘输入;
步骤A12:对检测结果进行分析,将用户操作分为鼠标点击操作和文字输入操作两大类别;鼠标点击操作进一步划分为左击、右击、双击、拖动;鼠标左击对应用户进行典型应用按钮单击操作,鼠标右击对应用户进行典型应用隐藏菜单栏或二级快捷菜单栏的展开;鼠标双击对应用户进行典型应用的打开文件或文件架操作;鼠标拖动对应用户进行典型应用物体选中后位置调整操作或文字选中操作;
步骤A13:根据实时检测返回事件名称直接进行左击,右击判定;在此基础上利用前后两次左击位置判定是否进行双击,当第二次点击位置(xsec,ysec)包含于第一点击位置(xfir,yfir)加上允许用户操作时出现的偏移量Δd当中,减小用户点击操作的微小抖动对判定结果产生的影响,即满足(xsec,ysec)∈(xfird,yfird)时,其中(xfir,yfir)表示第一次点击的像素坐标,置(xsec,ysec)表示第二次点击的像素坐标,Δd表示因用户操作出现的偏移量;判定用户进行双击操作;
步骤A14:对出现的鼠标拖动操作进行进一步判定,进行用户鼠标移动位置记录,判定鼠标拖动路径是否满足水平方向或竖直方向上的直线拖动;以用户鼠标按下位置作为起点判定鼠标松开位置是否在以起点为中心的十字范围内,将属于十字范围内的鼠标拖动操作判定为文字水平或竖直方向的选中。
3.根据权利要求2所述的基于计算机视觉的典型应用智能图文教程制作的方法,其特征在于,所述步骤A2具体包括以下步骤:
步骤A21:截取用户进行鼠标点击操作的屏幕画面,记录鼠标点击位置;
步骤A22:截取以鼠标为中心,大小为用户屏幕二十五分之一的固定区域;将获得的固定区域图片转为灰度图,进行二值化处理;分别在水平方向和竖直方向对像素进行投影得到投影直方图T;将直方图看成长度为照片长度或宽度大小的列表T={p1,p2,p3...,pn},p1、p2、p3至pn分别表示第1、2、3至n行或列的投影值,n表示图片的长或宽;判断直方图当中是否存在p值为零列;
若不存在p值为零列则进一步对直方图数据进行处理,计算方法为:
pmin=Min(T)=Min{p1,p2,p3...,pn}
T′={(p1-pmin),(p2-pmin),(p3-pmin)...,(pn-pmin)}
其中pmin表示投影数据当中的最小值,Min(T)表示列表T中的最小值,Min{p1,p2,p3...,pn}表示在p1至pn数值中的最小值;T′表示经过处理后的投影数据,将各列数值减去T中的pmin获得零列;
步骤A23:分别选取水平投影直方图中与垂直投影直方图当中离鼠标点击位置最近的连续最大非零区域作为候选区域。
4.根据权利要求3所述的基于计算机视觉的典型应用智能图文教程制作的方法,其特征在于,所述步骤A3具体包括以下步骤:
步骤A31:对获得的候选区域进行文字识别;
步骤A32:截取用户操作画面,根据鼠标点击位置或文字输入位置标定红框;
步骤A33:将获取的文字和产出图片进行整合,自动生成一文一图形式的文档。
5.根据权利要求4所述的基于计算机视觉的典型应用智能图文教程制作的方法,其特征在于,所述步骤B1具体包括以下步骤:
步骤B11:对输入数据进行提取,将视频流转换为帧序列,对每一帧进行灰度化和高斯滤波操作;
步骤B12:采用批处理,对每相邻10帧之间进行帧间差值处理,得到差值列表;对差值列表进行平滑,采用窗口内峰值方法选取关键帧;
步骤B13:重新将输入数据转换为帧序列,保存上述各个窗口内所选取的关键帧。
6.根据权利要求5所述的基于计算机视觉的典型应用智能图文教程制作的方法,其特征在于,所述帧间差值处理是对前后帧间进行绝对值差分,所述前后帧表示中间相差8帧的两帧;通过帧间差值方式得到图像变化区域;帧间差值的计算方法如下:
Δt(x,y)=|It(x,y)-It-1(x,y)|
其中It(x,y)表示在第t时刻(x,y)像素点位置的像素值,It-1(x,y)表示在t时刻的上一秒(x,y)像素点位置的像素值;差分后结果进行二值化处理计算方法如下:
Figure FDA0003142624490000031
其中Δt(x,y)表示前后时刻像素点间的差值,u表示阈值,Bt(x,y)表示二值化后(x,y)处的结果;根据差值的大小是否大于某个阈值u来进行0或1的转化;最后将图像矩阵当中的二值化结果Bt(x,y)进行相加转换为一维数据;
选择适应于用户操作当中鼠标移动速度每30帧进行一次关键步骤操作的频率,选取大小为5的窗口进行峰值选取。
7.根据权利要求5所述的基于计算机视觉的典型应用智能图文教程制作的方法,其特征在于,所述步骤B2具体包括以下步骤:
步骤B21:模型输入数据预处理,提取鼠标图片和常用软件操作图,将鼠标在操作图中进行随机位置拼接,获得拼接图和鼠标拼接位置数据;
步骤B22:模型训练完毕获得相对应权重,在本地对关键帧进行推理,根据推理结果选择置信度最高位置作为鼠标位置,进行鼠标位置标定;
步骤B23:对标定后关键帧按照一文一图排版进行自动文档生成。
8.一种基于计算机视觉的典型应用智能图文教程制作的系统,其特征在于,包括存储器、处理器以及存储于存储器上并能够被处理器运行的程序指令,当处理器运行该程序指令时,能够实现如权利要求1-7所述的方法步骤。
CN202110745694.1A 2021-06-30 2021-06-30 基于计算机视觉的典型应用智能图文教程制作的方法及系统 Active CN113485615B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110745694.1A CN113485615B (zh) 2021-06-30 2021-06-30 基于计算机视觉的典型应用智能图文教程制作的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110745694.1A CN113485615B (zh) 2021-06-30 2021-06-30 基于计算机视觉的典型应用智能图文教程制作的方法及系统

Publications (2)

Publication Number Publication Date
CN113485615A true CN113485615A (zh) 2021-10-08
CN113485615B CN113485615B (zh) 2024-02-02

Family

ID=77939288

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110745694.1A Active CN113485615B (zh) 2021-06-30 2021-06-30 基于计算机视觉的典型应用智能图文教程制作的方法及系统

Country Status (1)

Country Link
CN (1) CN113485615B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114285761A (zh) * 2021-12-27 2022-04-05 北京邮电大学 一种基于视频录屏与ocr技术的跳板机违规操作检测方法
CN115858049A (zh) * 2023-03-04 2023-03-28 北京神州光大科技有限公司 Rpa流程组件化编排方法、装置、设备和介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000251012A (ja) * 1999-03-01 2000-09-14 Hitachi Ltd 帳票処理方法およびシステム
JP2005122550A (ja) * 2003-10-17 2005-05-12 Fuji Xerox Co Ltd 文書分類装置、プログラムおよび文書分類方法
US20100123908A1 (en) * 2008-11-17 2010-05-20 Fuji Xerox Co., Ltd. Systems and methods for viewing and printing documents including animated content
CN108536507A (zh) * 2018-03-22 2018-09-14 上海艺赛旗软件股份有限公司 一种图形应用文本化识别方法及系统
CN110428832A (zh) * 2019-07-26 2019-11-08 苏州蜗牛数字科技股份有限公司 一种自定义语音实现屏幕控制的方法
US20210076105A1 (en) * 2019-09-11 2021-03-11 Educational Vision Technologies, Inc. Automatic Data Extraction and Conversion of Video/Images/Sound Information from a Slide presentation into an Editable Notetaking Resource with Optional Overlay of the Presenter

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000251012A (ja) * 1999-03-01 2000-09-14 Hitachi Ltd 帳票処理方法およびシステム
JP2005122550A (ja) * 2003-10-17 2005-05-12 Fuji Xerox Co Ltd 文書分類装置、プログラムおよび文書分類方法
US20100123908A1 (en) * 2008-11-17 2010-05-20 Fuji Xerox Co., Ltd. Systems and methods for viewing and printing documents including animated content
CN108536507A (zh) * 2018-03-22 2018-09-14 上海艺赛旗软件股份有限公司 一种图形应用文本化识别方法及系统
CN110428832A (zh) * 2019-07-26 2019-11-08 苏州蜗牛数字科技股份有限公司 一种自定义语音实现屏幕控制的方法
US20210076105A1 (en) * 2019-09-11 2021-03-11 Educational Vision Technologies, Inc. Automatic Data Extraction and Conversion of Video/Images/Sound Information from a Slide presentation into an Editable Notetaking Resource with Optional Overlay of the Presenter

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HYUN KIM, ..: "A Low-Power Video Recording System With Multiple Operation Modes for H.264 and Light-Weight Compression", IEEE TRANSACTIONS ON MULTIMEDIA *
张婷婷;王伟军;黄英辉;刘凯;胡祥恩;: "基于屏幕视觉热区的中文短文本关键词实时提取方法", 情报学报, no. 12 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114285761A (zh) * 2021-12-27 2022-04-05 北京邮电大学 一种基于视频录屏与ocr技术的跳板机违规操作检测方法
CN114285761B (zh) * 2021-12-27 2023-04-25 北京邮电大学 一种基于视频录屏与ocr技术的跳板机违规操作检测方法
CN115858049A (zh) * 2023-03-04 2023-03-28 北京神州光大科技有限公司 Rpa流程组件化编排方法、装置、设备和介质

Also Published As

Publication number Publication date
CN113485615B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
US20210020171A1 (en) Digital Video Fingerprinting Using Motion Segmentation
CN107943837B (zh) 一种前景目标关键帧化的视频摘要生成方法
US6394557B2 (en) Method and apparatus for tracking an object using a continuously adapting mean shift
CN106940799B (zh) 文本图像处理方法和装置
US20170161591A1 (en) System and method for deep-learning based object tracking
CN113485615B (zh) 基于计算机视觉的典型应用智能图文教程制作的方法及系统
US8417026B2 (en) Gesture recognition methods and systems
CN101916448A (zh) 一种基于贝叶斯框架及lbp的运动目标检测方法
CN108093314B (zh) 一种视频新闻拆分方法及装置
CN106325485A (zh) 一种手势检测识别方法及系统
JP2016015045A (ja) 画像認識装置、画像認識方法及びプログラム
CN106331746B (zh) 用于识别视频文件中的水印位置的方法和装置
Rahim et al. Hand gesture recognition based on optimal segmentation in human-computer interaction
CN113608663B (zh) 一种基于深度学习和k-曲率法的指尖跟踪方法
CN109961016B (zh) 面向智能家居场景的多手势精准分割方法
WO2023123924A1 (zh) 目标识别方法、装置、电子设备及存储介质
US20210004967A1 (en) Object tracking device, object tracking method, and object tracking program
Abdullah et al. Objects detection and tracking using fast principle component purist and kalman filter.
WO2020022329A1 (ja) 物体検出認識装置、方法、及びプログラム
CN105404682A (zh) 一种基于数字图像内容的图书检索方法
Algethami et al. Combining Accumulated Frame Differencing and Corner Detection for Motion Detection.
CN111667419A (zh) 一种基于Vibe算法的移动目标鬼影消除方法及系统
Hoque et al. Computer vision based gesture recognition for desktop object manipulation
CN111652080A (zh) 基于rgb-d图像的目标跟踪方法和装置
CN115035397A (zh) 一种基于水下移动目标识别方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant