CN114187658A

CN114187658A - 一种输入操作的识别方法及设备

Info

Publication number: CN114187658A
Application number: CN202111458568.4A
Authority: CN
Inventors: 韦帅
Original assignee: Shanghai Suninfo Technology Co ltd
Current assignee: Shanghai Suninfo Technology Co ltd
Priority date: 2021-12-01
Filing date: 2021-12-01
Publication date: 2022-03-15

Abstract

本申请提供了一种输入操作的识别方法,通过获取输入操作动作时间、位置信息、动作内容以及操作视频，获取动作视频帧，再根据图标和窗口的位置信息，将输入操作位置信息与动作视频帧中图标和窗口的位置信息进行匹配，确定输入操作的目标窗口和目标图标，并获取所述目标窗口和目标图标的属性信息。然后，根据输入操作动作时间、动作内容，以及对应的目标窗口和目标图标的属性信息，对输入操作进行时序动作逻辑判定，识别所述相关的输入操作的动作信息。这样，审计人员就可以通过对操作的动作信息的审阅替代现有技术中只能抽检录像确认运维操作的过程，达到了可以对所有的运维录像进行审计，并极大地减少审计工作耗时的技术效果。

Description

一种输入操作的识别方法及设备

技术领域

本申请涉及计算机应用技术领域，尤其是涉及一种输入操作的识别方法及设备。

背景技术

传统的运维审计中，审计人员仅能获得运维过程的屏幕录像信息及鼠标点击(时间/坐标)信息，审计人员需要观看录像才能确认其运维操作内容，再进一步判定其是否有违规运维行为。这个过程使得图形运维的审计工作非常耗时，而且由于时间成本的原因只能进行抽检而无法对所有的运维录像进行审计。

发明内容

本申请应用于智能化运维技术中，针对图形运维的屏幕录像进行图像识别、文字识别处理，识别与提取其中的鼠标操作内容并转化为可读的文字描述信息，是一种针对OMA(IT运维管理审计系统)运维录像操作内容的识别与提取方法。

本申请的一个目的是提供一种输入操作的识别方法及设备，用以解决现有技术中运维的审计工作非常耗时，而且由于时间成本的原因只能进行抽检而无法对所有的运维录像进行审计的问题。

为实现上述目的，本申请提供了一种输入操作的识别方法及设备包括以下内容：

获取输入操作的操作动作时间、操作位置信息和操作动作内容，并在所述输入操作的执行过程中对显示界面进行录屏，获取关于所述输入操作的操作视频；

根据所述输入操作的操作动作时间，从所述操作视频中提取与所述操作动作时间对应的动作视频帧；

从所述动作视频帧中提取图标和窗口的位置信息，将所述输入操作的操作位置信息与对应的动作视频帧中的图标和窗口的位置信息进行匹配，确定所述输入操作的目标窗口和目标图标，并获取所述目标窗口和目标图标的属性信息；

根据相关的输入操作的操作动作时间、操作动作内容，以及对应的动作视频帧中的目标窗口和目标图标的属性信息，对所述相关的输入操作进行时序动作逻辑判定，识别所述相关的输入操作的动作信息。

进一步地，根据所述输入操作的操作动作时间，从所述操作视频中提取与所述操作动作时间对应的动作视频帧，包括：

将所述操作视频根据时间顺序分解成多个连续的视频帧；

根据所述操作动作时间，提取所述操作动作时间点的动作视频帧。

进一步地，从所述动作视频帧中提取图标和窗口的位置信息，将所述输入操作的操作位置信息与对应的动作视频帧中的图标和窗口的位置信息进行匹配，确定所述输入操作的目标窗口和目标图标，包括：

从所述动作视频帧中提取窗口的位置信息，将所述输入操作的操作位置信息与对应的动作视频帧中的窗口的位置信息进行匹配，确定所述输入操作的目标窗口；

从所述动作视频帧的所述目标窗口中提取图标的位置信息，将所述输入操作的操作位置信息与所述目标窗口中的窗口的位置信息进行匹配，确定所述输入操作的目标图标。

进一步地，获取所述目标图标的属性信息，包括：

在所述所述动作视频帧中确定与所述目标图标关联的文字；

提取所述文字的内容，确定为所述目标图标的属性信息。

进一步地，在所述所述动作视频帧中确定与所述目标图标关联的文字，包括：

获取所述动作视频帧中与目标图标位置信息对应的文字位置信息；

从文字位置信息中提取对应的文字内容作为所述目标图标关联的文字。

进一步地，获取所述动作视频帧中与目标图标位置信息对应的文字位置信息，包括：

获取目标图标的图像，并根据所述目标图标的图像确定第一长度阈值；

获取以所述图像中心为基点向外扩展第一长度阈值的范围；

根据所述范围与文字位置信息，获取目标图标位置信息对应的文字位置信息。

进一步地，根据所述目标图标的图像确定第一长度阈值，包括：

获取所述目标图标的图像的长度值和高度值；

将所述长度值与所述高度值进行数值比较；

将两者之间较小的数值的二倍作为第一长度阈值。

进一步地，获取所述目标窗口的属性信息，包括：

根据所述动作视频帧中的文字位置信息与所述目标窗口的位置信息确定目标窗口对应的文字位置信息；

判断所述目标窗口对应的文字位置信息对应的文字字符长度是否大于第一字符长度；

若是，则将目标窗口对应的文字位置信息对应的文字内容确定为目标窗口的属性信息。

进一步地，识别所述相关的输入操作的动作信息，包括：

通过输入操作动作信息库，识别所述相关的输入操作的动作信息，其中，所述输入操作的动作信息库根据不同的窗口类型创建。

一种用于输入操作的识别的设备，该设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发所述设备执行上述任一项所述的方法。

与现有技术相比，本申请提供了一种输入操作的识别方法,通过获取输入操作动作时间、位置信息、动作内容以及操作视频，获取动作视频帧，再根据图标和窗口的位置信息，将输入操作位置信息与动作视频帧中图标和窗口的位置信息进行匹配，确定输入操作的目标窗口和目标图标，并获取所述目标窗口和目标图标的属性信息。然后，根据输入操作动作时间、动作内容，以及对应的目标窗口和目标图标的属性信息，对输入操作进行时序动作逻辑判定，识别所述相关的输入操作的动作信息。这样，审计人员就可以通过对操作的动作信息的审阅替代现有技术中只能抽检录像确认运维操作的过程，达到了可以对所有的运维录像进行审计，并极大地减少审计工作耗时的技术效果。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为本申请所述方法其中一个实施例的流程图。

图2为本申请所述方法其中一个实施例的示意图。

图3为本申请所述方法其中一个实施例的示意图。

图4为本申请所述方法其中一个实施例的示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。下面结合附图对本申请作进一步详细描述。

本申请提供了一种输入操作的识别方法，包括以下步骤：

步骤S101：获取输入操作的操作动作时间、操作位置信息和操作动作内容，并在所述输入操作的执行过程中对显示界面进行录屏，获取关于所述输入操作的操作视频。

步骤S102：根据所述输入操作的操作动作时间，从所述操作视频中提取与所述操作动作时间对应的动作视频帧。

步骤S103：从所述动作视频帧中提取图标和窗口的位置信息，将所述输入操作的操作位置信息与对应的动作视频帧中的图标和窗口的位置信息进行匹配，确定所述输入操作的目标窗口和目标图标，并获取所述目标窗口和目标图标的属性信息。

步骤S104：根据相关的输入操作的操作动作时间、操作动作内容，以及对应的动作视频帧中的目标窗口和目标图标的属性信息，对所述相关的输入操作进行时序动作逻辑判定，识别所述相关的输入操作的动作信息。

下面结合图1进一步说明本申请所述方法及实施例。

首先，获取到输入操作的操作动作时间，所述输入操作可以是鼠标单击或者双击，手写笔的触碰选定操作等。所述操作动作的时间可以是操作时的时间节点，比如鼠标单击某一图标时，单击动作做出时的时间节点。所述操作位置信息可以是操作时的操作点相对于窗口的位置信息，当确定操作位置信息时可以将屏幕中的某一窗口作为参照物建立统一的位置坐标，而计算操作位置信息时可以按照此坐标划定坐标范围，从而更好的确定操作位置信息。所述操作动作内容可以包括个操作的动作描述，比如，单击、双击等。

在获取上述操作动作时间、操作位置信息和操作动作内容时可以对整个屏幕或者操作界面进行录屏，录屏的内容包括所有相关的操作过程，必要时，也可以仅对局部窗口进行录屏。将操作过程记录下来的视频可以作为所述操作视频。在本申请中，可以使用OMA(IT运维管理审计系统)对输入操作的过程进行录屏，以此获取所述操作视频。

根据录得的操作视频，从操作视频中提取出与所述操作动作时间对应的动作视频帧。视频帧的数量可以按照需要自行设定，比如，每秒12帧，其目的在于获取输入操作时的画面，此画面的时间点应与操作动作时间对应，所述动作视频帧可以包括操作视频中与操作动作时间对应的操作画面。所述与操作动作时间对应可以包括与操作动作时间点相同。所以，可以是根据操作动作时间在操作视频中获取到与操作动作时间的时间点相同的动作视频帧。

在本申请的一些实施例中，根据所述输入操作的操作动作时间，从所述操作视频中提取与所述操作动作时间对应的动作视频帧，可以先将所述操作视频根据时间顺序分解成多个连续的视频帧，再根据所述操作动作时间，提取所述操作动作时间点的动作视频帧。

在通过输入操作的操作动作时间，从所述操作视频中提取与所述操作动作时间对应的动作视频帧时，可以首先将操作视频根据时间顺序分解成多个视频帧，得到按照时间顺序排列的视频画面，在根据操作动作时间在多个视频画面中提取与操作动作时间节点对应的视频画面，可以将这些视频画面作为动作视频帧。

在动作视频帧中提取出各图标和窗口的位置信息，此位置信息的建立应与上述操作位置信息的建立采用相同的标准，比如，可以通过边缘识别和轮廓提取先提取出图标和窗口的轮廓，再通过在动作视频帧中建立统一的坐标系，在坐标系中依据图标和窗口的轮廓标定其坐标范围，操作位置信息就通过各自坐标范围统一标定在同一个坐标系内，以坐标范围来描述各位置信息。针对屏幕中坐标系的建立，可以按照屏幕的像素点进行划分，例如，屏幕分辨率是1920*1080,左上角作为(0,0)，右下角则为(1920,1080)。

在获得了操作位置信息和图标和窗口的位置信息后，可以对其进行匹配，匹配的目的在于获取操作动作针对的图标或窗口，已获取操作动作的行为对象，而操作动作的行为对象包括输入操作的目标窗口和目标图标，在获取了目标窗口和目标图标后就可以依据目标窗口和目标图标获取相关属性信息，其中，所述目标图标的属性信息可以是目标图标的名称、功能描述等，所述目标窗口的属性信息可以是窗口的路径信息，会话框所属应用等。

例如图2所示，窗口1为操作系统的桌面，在本申请中，操作系统的桌面也作为一个窗口处理，在桌面窗口1中存在图标23(图标图像2与文字信息3)、图标45(图标图像4与文字信息5)、会话窗口6，其中会话窗口6中包括会话窗口的路径信息7、图标89(图标图像8与文字信息9)，可以先通过图像识别技术提取出图标23、图标45、会话窗口6、图标89的位置信息，鼠标10的位置信息已提前获取，如果鼠标10点击的是图标23，则根据鼠标10的位置、桌面窗口1的位置，图标23的位置匹配出鼠标10的操作目标为图标23，则获取目窗口1中的目标图标23。

在本申请的一些实施例中，从所述动作视频帧中提取图标和窗口的位置信息，将所述输入操作的操作位置信息与对应的动作视频帧中的图标和窗口的位置信息进行匹配，确定所述输入操作的目标窗口和目标图标，可以是先从所述动作视频帧中提取窗口的位置信息，将所述输入操作的操作位置信息与对应的动作视频帧中的窗口的位置信息进行匹配，确定所述输入操作的目标窗口，再从所述动作视频帧的所述目标窗口中提取图标的位置信息，将所述输入操作的操作位置信息与所述目标窗口中的窗口的位置信息进行匹配，确定所述输入操作的目标图标。

在对目标图标和目标窗口进行获取时，可以先从动作视频帧中获取窗口位置信息，通过操作位置信息与窗口位置信息进行匹配，获取目标窗口的位置信息，再在目标窗口位置信息的范围内提取图标位置信息，将操作位置信息与图标位置信息进行匹配，获取目标图标位置信息。在建立统一坐标系的情况下，操作位置信息与窗口位置信息的匹配与将操作位置信息与图标位置信息的匹配可以通过坐标范围进行判断。

例如图2所示，如果鼠标10点击的是图标89，可以先提取会话窗口6与窗口1的位置信息，根据获取的会话窗口6的位置信息和鼠标10的位置信息确定目标窗口为会话窗口6，再从会话窗口6中提取图标89的位置信息，根据图标89的位置信息与鼠标10的位置信息可以确定目标图标为图标89。

在本申请的一些实施例中，获取所述目标图标的属性信息，可以是在所述动作视频帧中确定与所述目标图标关联的文字，然后提取所述文字的内容，确定为所述目标图标的属性信息。

所述目标图标的属性信息可以是目标图标的名称、功能描述等，在动作视频帧中可以确定与目标图标相关的文字信息，将与目标图标相关的文字提取后可以将其作为目标图标的名称、功能描述等，可以作为目标图标的属性信息。

如图2中的图标45作为目标图标，其中图标45分为图像4和文字信息5，可以先提取出图像4和图像2、文字信息3和文字信息5的位置信息，再通过匹配获取文字信息5为图标45的属性信息。

在本申请的一些实施例中，在所述动作视频帧中确定与所述目标图标关联的文字，可以先获取所述动作视频帧中与目标图标位置信息对应的文字位置信息，然后从文字位置信息中提取对应的文字内容作为所述目标图标关联的文字。

在获取目标图标关联文字时，可以通过目标图标的位置信息和文字位置信息予以判断，在动作视频帧中可以获取到文字位置信息，其方式可以是通过文字识别技术，比如OCR，再通过目标图标的位置信息确定与之对应的文字位置信息，最后在文字位置信息的位置区域内提取文字内容，此文字内容可以作为目标图标关联的文字。

在本申请的一些实施例中，获取所述动作视频帧中与目标图标位置信息对应的文字位置信息，可以先获取目标图标的图像，并根据所述目标图标的图像确定第一长度阈值，再获取以所述图像中心为基点向外扩展第一长度阈值的范围，最后根据所述范围与文字位置信息，获取目标图标位置信息对应的文字位置信息。

获取到目标图标位置信息对应的文字位置信息，可以是先获取目标图标的图像，然后根据目标图像确定第一长度阈值，所述第一长度阈值的确定可以预先设定，其作用在于，可以将图像中心作为基点，以基点为中心向图像外扩展第一长度阈值的范围，在此范围内的文字所处的位置可以作为目标图标位置信息对应的文字位置信息。

在具体的应用场景中，可以先将获取到的以所述图像中心为基点向外扩展第一长度阈值的范围截取出来，再在此范围内做OCR处理，此时OCR处理的目标图片内干扰因素少，文字识别准确率高，便于对文字位置信息内容的获取。

在本申请的一些实施例中，根据所述目标图标的图像确定第一长度阈值，可以是先获取所述目标图标的图像的长度值和高度值，再将所述长度值与所述高度值进行数值比较，最后将两者之间较小的数值的若干倍作为第一长度阈值。

在根据目标图标的图像确定的第一长度阈值，可以用此方式，首先获取目标图像的长度值和高度值，再将两个数值进行比较，再将较小的数值作为基数，将此基数的若干倍长度作为第一长度阈值。

例如图3所示，获取到目标图像4长度为h，宽度为w，将两个数值进行比较，若h>w，则将w作为基数，第一长度阈值可以是w、2倍的w、2.5倍的w，3倍的w等，当第一长度阈值为2w时，以图像4中心为基点向外扩展第一长度阈值的范围中就可以获取到文字信息5。

此方式还可以判断文字信息是否可以作为目标图标的属性，例如图3，获取到文字信息5与目标图标的图像4的位置信息后，首先发现在以图像4中心为基点向外扩展第一长度阈值的范围内，文字信息5与目标图标的图像4位置最近，文字信息5处于目标图标的图像4的正下方，尺寸更为接近，如果获取到相较于文字信息5距离更远的文字信息时，可以将文字信息5作为图标45的主要的属性信息，将距离较远的文字信息作为次要的属性信息，或者将其忽略。

在本申请的另一些实施例中，获取所述目标窗口的属性信息，可以是根据所述动作视频帧中的文字位置信息与所述目标窗口的位置信息确定目标窗口对应的文字位置信息，再判断所述目标窗口对应的文字位置信息对应的文字字符长度是否大于第一字符长度，若是，则将目标窗口对应的文字位置信息对应的文字内容确定为目标窗口的属性信息。

所述目标窗口的属性信息可以是目标窗口的路径信息，在确定目标窗口的属性信息时，可以通过目标窗口的位置信息和文字位置信息获取，首先，先通过目标窗口的位置信息确定目标窗口对应的文字位置信息，此文字位置信息可以是目标窗口位置范围内的文字位置，可以在获取文字位置信息之后获取文字字符长度，判断文字字符长度是否大于第一字符长度，若大于，则可以将此文字位置信息的文字内容作为目标窗口的属性信息。

例如图2所示，可以根据会话窗口6的位置信息与文字信息7的位置信息确定文字信息7为会话窗口6的文字信息，将文字信息7的文字提取出来判断其是否大于第一字符长度，若大于，则文字信息7是会话窗口6的属性信息，其中文字信息7可以是会话窗口6的路径信息，比如，文字信息7的文字内容为：192.168.211.201/#/Wb5M5v1rE6LWLVp2Lr075ShpWNPCeMGwr，预设第一字符长度为8，则文字信息7的文字内容的字符大于第一字符长度，则文字信息7的内容可以作为会话窗口6的路径信息，当以路径信息作为会话窗口6的属性信息时，还可以加入对文字信息7的内容中是否包含“/”符号来判断其是否为路径信息。

将输入操作的操作动作时间，操作动作内容，目标窗口和目标图标的属性信息进行综合判断，依据动作的时序整合动作的目标窗口和目标图标，判断操作的行为逻辑，对此行为逻辑的描述可以作为输入操作的动作信息。例如，操作动作时间为10点45分，操作动作内容、目标窗口和目标图标为鼠标左键双击目标图标，此图标的属性信息是我的文档，在打开的对话框中右键单击另一目标图标，此目标图标的属性信息是我的图片，在弹出的菜单中用鼠标单击删除选项。判断操作的行为逻辑为“打开我的文档，删除文档中我的图片”。而输入操作动作信息就可以是：10点45分，打开我的文档，删除文档中我的图片。

在进行时序动作逻辑判定时，还可以针对不同的窗口加入对行为场景的判定，所述不同窗口可以是桌面、某个文件夹会话框、某个页面、菜单等。在输出的输入操作动作信息中可以更完整的描述操作动作的行为目的。例如，一次完成的文件删除操作行为包括：左键滑动选中若干目标文件，右键点击被选中的文件中的一个打开菜单栏，左键点击删除菜单，左键再点击确认窗口的确认按键。

在本申请的另一些实施例中，识别所述相关的输入操作的动作信息，可以是通过输入操作动作信息库，识别所述相关的输入操作的动作信息，其中，所述输入操作的动作信息库根据不同的窗口类型创建。

在判断操作的行为逻辑后，可以将判断结果和/或判断方法和/或行为场景的判定结果存入建立的输入操作动作信息库中，以便于以后遇到类似的操作不需要再进行判断，直接调用输入操作动作信息库中的数据予以描述，这样可以节省对操作行为进行时序逻辑判断过程所用的时间，使其可以更加高效的生成输入操作的动作信息。

输入操作动作信息库的建立可以根据不同的窗口建立不同的输入操作动作信息库，比如，在桌面窗口建立一个输入操作动作信息库，在运维常用的窗口或会话框建立一个输入操作动作信息库等。在操作行为场景的判定中，不同的窗口下，相同的鼠标操作意味着不同的行为，例如：在桌面上双击文件夹图标是打开的行为，而在开始菜单中单击为打开的行为，所以可以根据不同窗口类型创建不同的输入操作动作信息库，对鼠标的原始操作进行转化。

图4为本申请其中一个实施例的示意图，首先获取到操作动作时间、操作位置信息、操作动作内容，并获取视频。通过操作动作时间的时间节点从操作视频中获取动作视频帧，通过边缘识别与轮廓提取技术获取到图标位置信息和窗口位置信息，根据操作位置信息从图标位置信息与窗口位置信息中提取出目标图标与目标窗口，在目标图标与目标窗口中获取到目标图标的属性信息与目标窗口的属性信息，综合操作动作时间、操作动作内容、目标图标、目标图标属性信息、目标窗口、目标窗口属性信息进行时序动作逻辑的判定或结合输入操作动作信息库，获取到输入操作的动作信息。

本申请还提供一种用于鼠标键盘操作的识别的设备，该设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发所述设备执行上述任一项所述的方法或实施例。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

需要注意的是，本发明可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本发明的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本发明的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本发明的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种输入操作的识别方法，其特征在于，包括：

2.根据权利要求1所述方法，其特征在于，根据所述输入操作的操作动作时间，从所述操作视频中提取与所述操作动作时间对应的动作视频帧，包括：

将所述操作视频根据时间顺序分解成多个连续的视频帧；

3.根据权利要求1所述方法，其特征在于，从所述动作视频帧中提取图标和窗口的位置信息，将所述输入操作的操作位置信息与对应的动作视频帧中的图标和窗口的位置信息进行匹配，确定所述输入操作的目标窗口和目标图标，包括：

4.根据权利要求1所述方法，其特征在于，获取所述目标图标的属性信息，包括：

在所述所述动作视频帧中确定与所述目标图标关联的文字；

提取所述文字的内容，确定为所述目标图标的属性信息。

5.根据权利要求4所述方法，其特征在于，在所述动作视频帧中确定与所述目标图标关联的文字，包括：

6.根据权利要求5所述方法，其特征在于，获取所述动作视频帧中与目标图标位置信息对应的文字位置信息，包括：

获取以所述图像中心为基点向外扩展第一长度阈值的范围；

7.根据权利要求6所述方法，其特征在于，根据所述目标图标的图像确定第一长度阈值，包括：

获取所述目标图标的图像的长度值和高度值；

将所述长度值与所述高度值进行数值比较；

将两者之间较小的数值的二倍作为第一长度阈值。

8.根据权利要求1所述方法，其特征在于，获取所述目标窗口的属性信息，包括：

9.根据权利要求1所述方法，其特征在于，识别所述相关的输入操作的动作信息，包括：

10.一种用于鼠标键盘操作的识别的设备，该设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发所述设备执行权利要求1至9中任一项所述的方法。