CN113485615A

CN113485615A - 基于计算机视觉的典型应用智能图文教程制作的方法及系统

Info

Publication number: CN113485615A
Application number: CN202110745694.1A
Authority: CN
Inventors: 柯逍; 苏凯婷
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-10-08
Anticipated expiration: 2041-06-30
Also published as: CN113485615B

Abstract

本发明涉及一种基于计算机视觉的典型应用智能图文教程制作的方法及系统，该方法包括实时操作过程和录屏操作过程，实时操作过程包括：A1、获取用户操作过程中的鼠标和键盘操作，分析鼠键操作对应的典型软件操作内容；A2、对操作内容进行筛选，判定其关键程度，对包含关键文字信息的操作进行用户屏幕区域提取；A3、对提取到的区域进行文字内容识别，将用户操作画面与提取所得文字进行编排，写入文档；录屏操作过程包括：B1、对输入视频进行关键帧提取，识别录屏操作中关键内容；B2、对获取的关键帧内容进行鼠标检测，标定操作位置，整理标定操作位置后的关键帧，写入文档。该方法及系统可以有效地识别用户操作内容，智能化生成操作文档。

Description

基于计算机视觉的典型应用智能图文教程制作的方法及系统

技术领域

本发明属于计算机视觉领域，具体涉及一种基于计算机视觉的典型应用智能图文教程制作的方法及系统。

背景技术

关键帧提取即KeyFrame Extraction其主要任务是将给定视频准换为一组图像序列，找到图像序列中具有关键内容的帧，剔除大量的过渡帧。减少视频数据量过大带来的数据处理成本增加。目前学术界在关键帧提取问题上采用的主要方法包括基于聚类的分析方法和基于运动的光流分析法。

目标检测即ObjectDetection其主要任务是对给定的图片识别其中包含的目标并进行分类。目前学术界在目标检测问题上采用的主要方法包括多阶段的R-CNN系列算法和单阶段的YOLO系列，SSD算法等。通过预测检测目标在图片当中的候选区域，给与候选框和分类结果置信度参数，相较于R-CNN系列算法，YOLO系列算法的速度更快。

发明内容

本发明的目的在于提供一种基于计算机视觉的典型应用智能图文教程制作的方法及系统，该方法及系统可以有效地识别用户操作内容，智能化生成操作文档。

为实现上述目的，本发明采用的技术方案是：一种基于计算机视觉的典型应用智能图文教程制作的方法，包括实时操作过程和录屏操作过程，所述实时操作过程包括以下步骤：

步骤A1：获取用户操作过程中的鼠标和键盘操作，分析鼠标和键盘操作对应的典型软件操作内容；

步骤A2：对获取到的操作内容进行筛选，判定其关键程度，对包含关键文字信息的操作进行用户屏幕区域提取；

步骤A3：对提取到的区域进行文字内容识别，将用户操作画面与提取所得文字进行编排，写入文档；

所述录屏操作过程包括以下步骤：

步骤B1：对输入视频进行关键帧提取，识别录屏操作中关键内容，过滤多余的帧；

步骤B2：对获取到的关键帧内容进行鼠标检测，标定操作位置，整理标定操作位置后的关键帧，写入文档。

进一步地，所述步骤A1具体包括以下步骤：

步骤A11：对用户实时操作内容进行鼠标和键盘事件的检测，记录操作时的鼠标位置和键盘输入；

步骤A12：对检测结果进行分析，将用户操作分为鼠标点击操作和文字输入操作两大类别；鼠标点击操作进一步划分为左击、右击、双击、拖动；鼠标左击对应用户进行典型应用按钮单击操作，鼠标右击对应用户进行典型应用隐藏菜单栏或二级快捷菜单栏的展开；鼠标双击对应用户进行典型应用的打开文件或文件架操作；鼠标拖动对应用户进行典型应用物体选中后位置调整操作或文字选中操作；

步骤A13：根据实时检测返回事件名称直接进行左击，右击判定；在此基础上利用前后两次左击位置判定是否进行双击，当第二次点击位置(x_sec，y_sec)包含于第一点击位置(x_fir，y_fir)加上允许用户操作时出现的偏移量Δ_d当中，减小用户点击操作的微小抖动对判定结果产生的影响，即满足(x_sec，y_sec)∈(x_fir+Δ_d，y_fir+Δ_d)时，其中(x_fir，y_fir)表示第一次点击的像素坐标，置(x_sec，y_sec)表示第二次点击的像素坐标，Δ_d表示因用户操作出现的偏移量；判定用户进行双击操作；

步骤A14：对出现的鼠标拖动操作进行进一步判定，进行用户鼠标移动位置记录，判定鼠标拖动路径是否满足水平方向或竖直方向上的直线拖动；以用户鼠标按下位置作为起点判定鼠标松开位置是否在以起点为中心的十字范围内，将属于十字范围内的鼠标拖动操作判定为文字水平或竖直方向的选中。

进一步地，所述步骤A2具体包括以下步骤：

步骤A21：截取用户进行鼠标点击操作的屏幕画面，记录鼠标点击位置；

步骤A22：截取以鼠标为中心，大小为用户屏幕二十五分之一的固定区域；将获得的固定区域图片转为灰度图，进行二值化处理；分别在水平方向和竖直方向对像素进行投影得到投影直方图T；将直方图看成长度为照片长度或宽度大小的列表T＝{p₁，p₂，p₃...，p_n}，p₁、p₂、p₃至p_n分别表示第1、2、3至n行或列的投影值，n表示图片的长或宽；判断直方图当中是否存在p值为零列；

若不存在p值为零列则进一步对直方图数据进行处理，计算方法为：

p_min＝Min(T)＝Min{p₁，p₂，p₃...，p_n}

T′＝{(p₁-p_min)，(p₂-p_min)，(p₃-p_min)...，(p_n-p_min)}

其中p_min表示投影数据当中的最小值，Min(T)表示列表T中的最小值，Min{p₁，p₂，p₃...，p_n}表示在p₁至p_n数值中的最小值；T′表示经过处理后的投影数据，将各列数值减去T中的p_min获得零列；

步骤A23：分别选取水平投影直方图中与垂直投影直方图当中离鼠标点击位置最近的连续最大非零区域作为候选区域。

进一步地，所述步骤A3具体包括以下步骤：

步骤A31：对获得的候选区域进行文字识别；

步骤A32：截取用户操作画面，根据鼠标点击位置或文字输入位置标定红框；

步骤A33：将获取的文字和产出图片进行整合，自动生成一文一图形式的文档。

进一步地，所述步骤B1具体包括以下步骤：

步骤B11：对输入数据进行提取，将视频流转换为帧序列，对每一帧进行灰度化和高斯滤波操作；

步骤B12：采用批处理，对每相邻10帧之间进行帧间差值处理，得到差值列表；对差值列表进行平滑，采用窗口内峰值方法选取关键帧；

步骤B13：重新将输入数据转换为帧序列，保存上述各个窗口内所选取的关键帧。

进一步地，所述帧间差值处理是对前后帧间进行绝对值差分，所述前后帧表示中间相差8帧的两帧；通过帧间差值方式得到图像变化区域；帧间差值的计算方法如下：

Δ_t(x，y)＝|I_t(x，y)-I_t-1(x，y)|

其中I_t(x，y)表示在第t时刻(x，y)像素点位置的像素值，I_t-1(x，y)表示在t时刻的上一秒(x，y)像素点位置的像素值；差分后结果进行二值化处理计算方法如下：

其中Δ_t(x，y)表示前后时刻像素点间的差值，u表示阈值，B_t(x，y)表示二值化后(x，y)处的结果；根据差值的大小是否大于某个阈值u来进行0或1的转化；最后将图像矩阵当中的二值化结果B_t(x，y)进行相加转换为一维数据；

选择适应于用户操作当中鼠标移动速度每30帧进行一次关键步骤操作的频率，选取大小为5的窗口进行峰值选取。

进一步地，所述步骤B2具体包括以下步骤：

步骤B21：模型输入数据预处理，提取鼠标图片和常用软件操作图，将鼠标在操作图中进行随机位置拼接，获得拼接图和鼠标拼接位置数据；

步骤B22：模型训练完毕获得相对应权重，在本地对关键帧进行推理，根据推理结果选择置信度最高位置作为鼠标位置，进行鼠标位置标定；

步骤B23：对标定后关键帧按照一文一图排版进行自动文档生成。

本发明还提供了一种基于计算机视觉的典型应用智能图文教程制作的系统，包括存储器、处理器以及存储于存储器上并能够被处理器运行的程序指令，当处理器运行该程序指令时，能够实现上述的方法步骤。

与现有技术相比，本发明具有以下有益效果：本发明能够有效地识别用户操作内容，分析和记录关键性操作内容，智能化生成操作文档。同时，针对输入的视频数据，有效提取视频当中关键内容，减少视频数据带来的信息膨胀，对关键内容进行操作位置识别，进行操作文档整合。本发明识别键盘和鼠标操作转换为典型应用内容上操作，划分多类型鼠标操作，类型齐全，并自动筛除空白点击，精确获取用户操作内容。此外，通过投影法选取连续最大非零区间作为文字识别候选区，规避非关键信息对提取操作的干扰，保证提取信息的准确性和完整性。本发明还采用间隔多帧的批处理方法，减少关键帧提取时长，对帧间差值进行平滑处理，减少噪声带来的毛刺，适应用户操作频率，选取适当窗口大小，提取窗口内峰值最为关键帧，避免出现高峰值处重复提取。

附图说明

图1是本发明实施例的方法实现流程图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例提供了一种基于计算机视觉的典型应用智能图文教程制作的方法，包括实时操作过程和录屏操作过程。

在本实施例中，所述实时操作过程包括以下步骤：

步骤A1：获取用户操作过程中的鼠标和键盘操作，分析鼠标和键盘操作对应的典型软件操作内容。具体包括以下步骤：

步骤A11：对用户实时操作内容进行鼠标和键盘事件的检测，记录操作时的鼠标位置和键盘输入。

步骤A12：对检测结果进行分析，将用户操作分为鼠标点击操作和文字输入操作两大类别。鼠标点击操作进一步划分为左击、右击、双击、拖动等。鼠标左击对应用户进行典型应用按钮单击操作，鼠标右击对应用户进行典型应用隐藏菜单栏或二级快捷菜单栏的展开。鼠标双击对应用户进行典型应用的打开文件或文件架操作。鼠标拖动对应用户进行典型应用物体选中后位置调整操作或文字选中操作。

步骤A13：根据实时检测返回事件名称直接进行左击，右击判定。在此基础上利用前后两次左击位置判定是否进行双击，当第二次点击位置(x_sec，y_sec)包含于第一点击位置(x_fir，y_fir)加上允许用户操作时出现的偏移量Δ_d当中，Δ_d一般选取5像素大小，减小用户点击操作的微小抖动对判定结果产生的影响，即满足(x_sec，y_sec)∈(x_fir+Δ_d，y_fir+Δ_d)时，其中(x_fir，y_fir)表示第一次点击的像素坐标，置(x_sec，y_sec)表示第二次点击的像素坐标，Δ_d表示因用户操作出现的偏移量。判定用户进行双击操作。

步骤A14：对出现的鼠标拖动操作进行进一步判定，进行用户鼠标移动位置记录，判定鼠标拖动路径是否满足水平方向或竖直方向上的直线拖动。以用户鼠标按下位置作为起点判定鼠标松开位置是否在以起点为中心的十字范围内，将属于十字范围内的鼠标拖动操作判定为文字水平或竖直方向的选中。

步骤A2：对获取到的操作内容进行筛选，判定其关键程度，对包含关键文字信息的操作进行用户屏幕区域提取。具体包括以下步骤：

步骤A21：截取用户进行鼠标点击操作的屏幕画面，记录鼠标点击位置。

步骤A22：截取以鼠标为中心，大小为用户屏幕二十五分之一的固定区域。将获得的固定区域图片转为灰度图，进行二值化处理。分别在水平方向和竖直方向对像素进行投影得到投影直方图T。将直方图看成长度为照片长度或宽度大小的列表T＝{p₁，p₂，p₃...，p_n}，p₁、p₂、p₃至p_n分别表示第1、2、3至n行或列的投影值，n表示图片的长或宽。判断直方图当中是否存在p值为零列。

p_min＝Min(T)＝Min{p₁，p₂，p₃...，p_n}

T′＝{(p₁-p_min)，(p₂-p_min)，(p₃-p_min)...，(p_n-p_min)}

其中p_min表示投影数据当中的最小值，Min(T)表示列表T中的最小值，Min{p₁，p₂，p₃...，p_n}表示在p₁至p_n数值中的最小值。T′表示经过处理后的投影数据，将各列数值减去T中的p_min获得零列。

键盘的信息主要就是用户键入的字符，通过钩子函数可以准确的得到用户键入的字符内容，无需其他操作进行判断。

步骤A3：对提取到的感兴趣区域进行文字内容识别，将用户操作画面与提取所得文字进行编排，写入文档。具体包括以下步骤：

步骤A31：对获得的候选区域进行文字识别。

步骤A32：截取用户操作画面，根据鼠标点击位置或文字输入位置标定红框。

在本实施例中，所述录屏操作过程包括以下步骤：

步骤B1：对输入视频进行关键帧提取，识别录屏操作中关键内容，过滤多余的帧。具体包括以下步骤：

步骤B11：对输入数据进行提取，将视频流转换为帧序列，对每一帧进行灰度化和高斯滤波操作。

步骤B12：采用批处理，对每相邻10帧之间进行帧间差值处理，得到差值列表。对差值列表进行平滑，最初选定指定帧数K帧作为关键帧，容易导致在差值列表峰值处出现多次重复选取现象。后采用窗口内峰值方法选取关键帧。

所述帧间差值处理是对前后帧间进行绝对值差分，所述前后帧表示中间相差8帧的两帧。通过帧间差值方式得到图像变化区域。帧间差值的计算方法如下：

Δ_t(x，y)＝|I_t(x，y)-I_t-1(x，y)|

其中I_t(x，y)表示在第t时刻(x，y)像素点位置的像素值，I_t-1(x，y)表示在t时刻的上一秒(x，y)像素点位置的像素值。差分后结果进行二值化处理计算方法如下：

其中Δ_t(x，y)表示前后时刻像素点间的差值，u表示阈值，B_t(x，y)表示二值化后(x，y)处的结果。根据差值的大小是否大于某个阈值u来进行0或1的转化。最后将图像矩阵当中的二值化结果B_t(x，y)进行相加转换为一维数据。

选择适应于用户操作当中鼠标移动速度大致为每30帧进行一次关键步骤操作的频率，选取大小为5的窗口进行峰值选取。

步骤B2：对获取到的关键帧内容进行鼠标检测，标定操作位置，整理标定操作位置后的关键帧，写入文档。具体包括以下步骤：

步骤B21：模型输入数据预处理，提取鼠标图片和常用软件操作图，将鼠标在操作图中进行随机位置拼接，获得拼接图和鼠标拼接位置数据。

步骤B22：模型训练完毕获得相对应权重，在本地对关键帧进行推理，根据推理结果选择置信度最高位置作为鼠标位置，进行鼠标位置标定。

本实施例还提供了一种基于计算机视觉的典型应用智能图文教程制作的系统，包括存储器、处理器以及存储于存储器上并能够被处理器运行的程序指令，当处理器运行该程序指令时，能够实现上述的方法步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于计算机视觉的典型应用智能图文教程制作的方法，其特征在于，包括实时操作过程和录屏操作过程，所述实时操作过程包括以下步骤：

所述录屏操作过程包括以下步骤：

2.根据权利要求1所述的基于计算机视觉的典型应用智能图文教程制作的方法，其特征在于，所述步骤A1具体包括以下步骤：

3.根据权利要求2所述的基于计算机视觉的典型应用智能图文教程制作的方法，其特征在于，所述步骤A2具体包括以下步骤：

p_min＝Min(T)＝Min{p₁，p₂，p₃...，p_n}

T′＝{(p₁-p_min)，(p₂-p_min)，(p₃-p_min)...，(p_n-p_min)}

4.根据权利要求3所述的基于计算机视觉的典型应用智能图文教程制作的方法，其特征在于，所述步骤A3具体包括以下步骤：

步骤A31：对获得的候选区域进行文字识别；

5.根据权利要求4所述的基于计算机视觉的典型应用智能图文教程制作的方法，其特征在于，所述步骤B1具体包括以下步骤：

6.根据权利要求5所述的基于计算机视觉的典型应用智能图文教程制作的方法，其特征在于，所述帧间差值处理是对前后帧间进行绝对值差分，所述前后帧表示中间相差8帧的两帧；通过帧间差值方式得到图像变化区域；帧间差值的计算方法如下：

Δ_t(x，y)＝|I_t(x，y)-I_t-1(x，y)|

7.根据权利要求5所述的基于计算机视觉的典型应用智能图文教程制作的方法，其特征在于，所述步骤B2具体包括以下步骤：

8.一种基于计算机视觉的典型应用智能图文教程制作的系统，其特征在于，包括存储器、处理器以及存储于存储器上并能够被处理器运行的程序指令，当处理器运行该程序指令时，能够实现如权利要求1-7所述的方法步骤。