CN116994277A

CN116994277A - 一种视觉域信息知识构建的方法、装置和电子设备

Info

Publication number: CN116994277A
Application number: CN202311248671.5A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Beijing Youjian Technology Co ltd
Current assignee: Beijing Youjian Technology Co ltd
Priority date: 2023-09-26
Filing date: 2023-09-26
Publication date: 2023-11-03

Abstract

本申请公开了一种视觉域信息知识构建的方法、装置和电子设备。所述方法包括：获得用户操作电子设备时屏幕上所显示的视觉域信息；对所述视觉域信息进行内容提取；以及利用提取的内容，进行知识构建，以形成结构化知识表示。利用本申请的方案，可以实现视觉域信息的知识构建，从而有效地对用户进行认知理解与分析。

Description

一种视觉域信息知识构建的方法、装置和电子设备

技术领域

本申请一般涉及视觉域信息技术领域。更具体地，本申请涉及一种视觉域信息知识构建的方法、装置和电子设备。

背景技术

据统计，人类使用眼睛（视觉域）获取信息的占比约80%，其中，成年人平均每天使用电子设备花费10个小时39分钟，以成人清醒时间为16小时计算，每天清醒时间中66.6%的时间都是在屏幕前度过的。随着近几年信息技术的高速发展和人们使用电子产品习惯的强化，这个数字还在增长。

据此可知，当前人类使用屏幕进行信息获取、知识学习的趋势已经形成，而利用人类观看屏幕过程中的视觉域信息进行知识构建与认知还原，可以有效地对使用人员进行认知理解与认知分析。其中，对于视觉域信息进行认知分析，需要在不影响使用人员的情况下，进行视觉域信息无感采集、视觉域信息的知识构建以及知识信息的认知理解与分析。然而，视觉域信息无感采集目前有多种技术手段可以实现，视觉域信息的知识构建和后续的认知理解与分析尚无有效方法。

有鉴于此，亟需提供一种视觉域信息知识构建的方案，以便实现视觉域信息的知识构建，从而有效地对用户进行认知理解与分析。

发明内容

为了至少解决如上所提到的一个或多个技术问题，本申请在多个方面中提出了视觉域信息知识构建的方案。

在第一方面中，本申请提供一种视觉域信息知识构建的方法，包括：获得用户操作电子设备时屏幕上所显示的视觉域信息；对所述视觉域信息进行内容提取；以及利用提取的内容，进行知识构建，以形成结构化知识表示。

在一个实施例中，其中对所述视觉域信息进行内容提取包括：对所述视觉域信息按照认知范围进行物体识别和分割；对分割后的结果进行分类；以及对不同类型的内容，进行与类型相对应的内容提取。

在另一个实施例中，其中类型包括交互类、动作类、数据类和场景类中的至少一种。

在又一个实施例中，其中交互类包括鼠标和键盘光标；动作类包括软件界面中的按钮、下拉框和菜单；数据类包括软件界面中的文本和图片；场景类包括视频帧的整体分割信息和时间轴信息。

在又一个实施例中，其中对不同类型的内容，进行与类型相对应的内容提取包括：针对交互类，提取鼠标和键盘光标所在位置和样式信息；针对动作类，提取按钮位置、按钮是否点击、按钮图标、按钮上文字信息，下拉框位置、下拉框选项列表、下拉框选中内容，菜单分级、菜单选项列表、菜单选中内容；针对数据类，提取文本内容、图片信息；针对场景类，提取视频帧分割物体数量、物体位置、物体类型。

在又一个实施例中，其中利用提取的内容，进行知识构建，以形成结构化知识表示包括：对交互类提取的信息，进行还原，以获得包括交互类型、交互位置、交互时间、交互状态、交互行为的数据结构；对动作类提取的信息，进行还原，以获得包括动作类型、动作对应控件、动作位置、动作时间、动作行为的数据结构；对数据类提取的信息，进行还原，以获得包括数据类型、原始内容、数据信息的数据结构；对场景类提取的信息，进行还原，以获得包括场景开始时间、场景结束时间、场景物体信息的数据结构。

在又一个实施例中，其中利用提取的内容，进行知识构建，以形成结构化知识表示还包括：以还原的场景信息为知识主体，将还原的交互信息、动作信息、数据信息关联起来，来进行知识构建。

在又一个实施例中，其中利用经过训练的识别和分割模型，对所述视觉域信息按照认知范围进行物体识别和分割。

在第二方面中，本申请提供一种视觉域信息知识构建的装置，包括：获得模块，用于获得用户操作电子设备时屏幕上所显示的视觉域信息；提取模块，用于对所述视觉域信息进行内容提取；以及构建模块，用于利用提取的内容，进行知识构建，以形成结构化知识表示。

在第三方面中，本申请提供一种电子设备，包括：处理单元；以及存储单元，其上存储有程序代码，当所述程序代码被所述处理单元执行时，使所述处理单元执行前述第一方面中的多个实施例。

通过如上所提供的视觉域信息知识构建的方案，本申请实施例通过对用户操作电子设备时屏幕上所显示的视觉域信息进行内容提取，以实现对视觉域信息的知识构建，并形成结构化知识表示。后续基于该知识构建的结构化知识表示，可以有效地对用户进行认知理解与分析。进一步，本申请实施例通过视觉域信息的全量采集，包含例如鼠标和键盘光标所在位置和样式信息，文本内容、图片信息等，使得前述结构化知识表示更加丰富、精细，从而使得对用户的认知理解与分析更准确。

附图说明

通过参考附图阅读下文的详细描述，本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本申请的若干实施方式，并且相同或对应的标号表示相同或对应的部分，其中：

图1是示出根据本申请实施例的视觉域信息知识构建的方法的示例性流程框图；

图2是示出根据本申请实施例的提取不同类型对应的内容的示例性流程框图；

图3是示出根据本申请实施例的对交互类信息的结构化知识表示的示例性示意图；

图4是示出根据本申请实施例的对动作类信息的结构化知识表示的示例性示意图；

图5是示出根据本申请实施例的对数据类信息的结构化知识表示的示例性示意图；

图6是示出根据本申请实施例的对场景类信息的结构化知识表示的示例性示意图；

图7是示出根据本申请实施例的整体知识构建的示例性示意图；

图8是示出根据本申请实施例的视觉域信息知识构建的装置的示例性结构框图；

图9是示出根据本申请实施例的进行屏幕镜像的示例性示意图；以及

图10是根据本申请实施例的电子设备的示例性结构框图。

具体实施方式

下面将结合附图对本申请实施例中的技术方案进行清楚和完整地描述。应当理解的是本说明书所描述的实施例仅是本申请为了便于对方案的清晰理解和符合法律的要求而提供的部分实施例，而并非可以实现本申请的所有实施例。基于本说明书公开的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1是示出根据本申请实施例的视觉域信息知识构建的方法100的示例性流程框图。如图1中所示，在步骤S101处，获得用户操作电子设备时屏幕上所显示的视觉域信息。在一个实施场景中，可以通过例如视频采集技术对用户操作电子设备时看到的屏幕信息进行视觉域采集，以获得视觉域信息。其中，前述视频采集技术可以包括不仅限于是视频采集器、录屏、摄像头拍摄等技术。

在获得前述视觉域信息后，在步骤S102处，对视觉域信息进行内容提取。在一个实施例中，对视觉域信息进行内容提取包括：首先对视觉域信息按照认知范围，即可识别范围，进行物体识别和分割，接着对分割后的结果进行分类，进而对不同类型的内容，进行与类型相对应的内容提取。在一个实现场景中，可以通过例如经过训练的识别和分割模型来对视觉域信息按照认知范围进行物体识别和分割。例如，利用识别和分割模型对鼠标位置、键盘光标、软件界面和图标等进行图形识别和分割。在一些实施例中，可以通过对首次接入的视频信息，提取一部分样本数据，对鼠标位置、键盘光标、软件界面、图标等可视内容的边界进行人工标注，并使用机器学习的方法进行机器训练，以获得训练完成的识别和分割模型。

利用上述训练完成的识别和分割模型进行物体识别和分割后，可以对分割后的结果进行分类并提取分类后的类型相对应的内容。在一个实施例中，前述类型可以包括但不仅限于是交互类、动作类、数据类和场景类中的至少一种。进一步地，前述交互类可以包括例如鼠标和键盘光标等，动作类可以包括例如软件界面中的按钮、下拉框和菜单等，数据类可以包括例如软件界面中的文本和图片等，而场景类可以包括例如视频帧的整体分割信息和时间轴信息。在一个实施场景中，对于前述不同类型各自对应的内容而言，可以通过例如信息提取技术提取相应的内容。

具体而言，针对交互类，提取例如鼠标和键盘光标所在位置和样式信息等内容。针对动作类，提取例如按钮位置、按钮是否点击、按钮图标、按钮上文字信息，下拉框位置、下拉框选项列表、下拉框选中内容，菜单分级、菜单选项列表、菜单选中内容等内容；针对数据类，提取文本内容、图片信息等内容；针对场景类，提取例如视频帧分割物体数量、物体位置、物体类型等内容。另外，对视频帧的整体分割信息和时间轴信息，可以从视觉域信息中提取各帧之间的分割信息的特征，通过例如归一化和相邻帧的相似性计算，判断前后相邻视频帧是否反映同一个操作场景，由此计算并提取场景的开始时间和场景的结束时间作为场景类的内容。

基于上述提取的各类型的内容，在步骤S103处，利用提取的内容，进行知识构建，以形成结构化知识表示。在一个实施例中，对交互类提取的信息，进行还原，以获得包括交互类型、交互位置、交互时间、交互状态、交互行为的数据结构；对动作类提取的信息，进行还原，以获得包括动作类型、动作对应控件、动作位置、动作时间、动作行为的数据结构；对数据类提取的信息，进行还原，以获得包括数据类型、原始内容、数据信息的数据结构以及对场景类提取的信息，进行还原，以获得包括场景开始时间、场景结束时间、场景物体信息的数据结构。进一步地，以还原的场景信息为知识主体，将还原的交互信息、动作信息、数据信息关联起来，来进行知识构建。

在一个示例性场景中，对于鼠标交互信息的还原，首先可以对鼠标位置坐标进行整数化处理，并对鼠标的当前状态（例如静止、运动、点击等状态）进行识别。若识别为运动状态，还原当前场景下鼠标的运动轨迹；若识别为静止状态，还原鼠标的停留时间区间；若识别为点击状态，还可以检测该点击状态为左键点击还是右键点击。在该场景下，最终将针对鼠标的交互信息还原为一个包含与鼠标交互相关的交互类型、交互位置、交互时间、交互状态、交互行为等复合信息的JSON结构。

对于键盘光标交互信息的还原，也可以先对键盘光标位置坐标进行整数化处理，并对键盘当前状态（例如静默、打字等状态）进行识别。若识别为静默模式，还原键盘的静默时间段；若识别为打字模式，进行录入文字动作信息检测，以记录用户场景内的输入内容。类似地，在该场景下最终将针对键盘光标的交互信息还原为一个包含与键盘光标交互相关的交互类型、交互位置、交互时间、交互状态、交互行为等复合信息的JSON结构。

在另一个示例性场景中，对提取的动作类信息，可以进行归一化处理、动作行为信息还原。其中，还原动作信息对应的屏幕坐标位置、动作时长、动作具体类型（例如按钮、下拉框、菜单等）等信息。在一些实施例中，若动作类型为按钮动作，还原按钮所在界面、按钮点击时间、按钮上文字等信息；若动作类型为下拉框动作，还原下拉框所在界面、下拉框选择时间、下拉框选择内容等信息；若动作类型为菜单动作，还原菜单所在界面，菜单选择时间和具体选择菜单的内容。在该场景下，最终将动作信息还原为一个包含与动作信息相关的动作类型、动作对应控件、动作位置、动作时间、动作行为信息等复合信息的JSON结构。

在又一个示例性场景中，对提取的数据类信息，可以进行归一化处理、类型识别、数据内容识别、信息深度提取以及信息还原，以最大限度的获取数据信息中的信息量。在该场景下，首先可以对数据类型进行识别，将数据分为原始文字类、图片文字类、图片物体类。对原始文字类数据和图片文字类数据，使用例如命名实体识别算法还原多种实体信息，接着利用例如机器学习或者正则匹配等计算方法还原位置类、时间类信息。对图片物体类数据，还原识别到的物体名称、物体位置等信息，最终将数据信息还原为一个包含与数据类信息有关的数据类型、原始内容、数据信息等复合信息的JSON结构。

在又一个示例性场景中，对提取的场景类信息，也可以进行归一化处理、场景信息还原，还原场景信息中的场景开始时间、场景终止时间等信息。在该场景下，可以以检测到的场景列表为输入，逐个场景还原场景开始时间、结束时间、场景内出现的场景物体信息等信息，以输出一个包含与场景类信息相关的场景开始时间、场景结束时间、场景物体信息等复合信息的JSON结构。

基于上述还原的交互、动作、数据和场景信息，通过以场景为知识主体，将交互信息、动作信息、数据信息关联起来进行知识构建，最终形成用户视觉域的场景化多维度知识表示并进行统一存储，以实现本申请实施例的视觉域信息的知识构建。例如，通过在场景的起止时间内，将在该时间段内的交互信息、动作信息、数据信息与场景信息进行关联，并对该场景下的全量信息进行统计分析，以形成关于视觉域信息的知识体构建并进行存储，从而为后续的基于场景的认知域分析提供有力的数据支撑。

结合上述描述可知，本申请实施例通过对用户操作电子设备时屏幕上所显示的视觉域信息进行全量采集并提取各类型的内容，包含例如交互类的鼠标和键盘光标所在位置和样式信息等内容；动作类的按钮、下拉框以及菜单等内容；数据类的文本内容、图片信息等内容以及场景类的视频帧分割物体数量、物体位置、物体类型等内容。接着，通过对前述内容进行还原，形成相对应的数据结构（例如JSON结构），并以场景为知识主体，对还原的交互、动作、数据和场景信息进行关联，以形成视觉域信息的知识体构建。基于此，可以有效地对用户进行认知理解与分析，并且获得更准确的认知理解与分析结果。

图2是示出根据本申请实施例的提取不同类型对应的内容的示例性流程框图。如图2中所示，在步骤S201处，获取用户操作电子设备时屏幕上所显示的视觉域信息。根据前文可知，该视觉域信息可以采用例如视频采集器、录屏、摄像头拍摄等技术来对用户操作电子设备时看到的屏幕信息的视觉域采集获得。基于获得的前述视觉域信息，在步骤S202处，可以利用经过训练的识别和分割模型来对视觉域信息按照认知范围进行物体识别和分割。具体地，通过利用机器学习中物体识别算法，对视觉域信息中的鼠标、键盘光标、软件界面、图标进行识别以及利用机器学习中的边缘检测算法，对识别到的物体的边缘进行分割，以获得例如鼠标位置、键盘光标、软件界面和图标等分割结果。

接着，在步骤S203处，对分割后的结果进行分类，以获得交互类、动作类、数据类和场景类中的至少一种。图中示例性示出，在步骤S204、步骤S205、步骤S206以及步骤S207处，分别获得交互类、动作类、数据类和场景类四种。如前所述，前述交互类可以包括例如鼠标和键盘光标等，动作类可以包括例如软件界面中的按钮、下拉框和菜单等，数据类可以包括例如软件界面中的文本和图片等，而场景类可以包括例如视频帧的整体分割信息和时间轴信息。

在获得前述四种类型后，可以利用例如信息提取技术提取各类型的相应内容。例如，在步骤S208处，针对交互类，提取例如鼠标和键盘光标所在位置和样式信息。具体地，在一个实现场景中，对于识别到的鼠标信息，可以从信息中提取出鼠标所在位置、鼠标样式信息；对于识别到的键盘光标信息，可以从信息中提取出光标所在位置、光标样式信息。

进一步地，在步骤S209处，针对动作类，提取例如按钮位置、按钮是否点击、按钮图标、按钮上文字信息，下拉框位置、下拉框选项列表、下拉框选中内容，菜单分级、菜单选项列表、菜单选中内容。在步骤S210处，针对数据类，提取文本内容、图片信息。具体地，对于识别到的软件界面信息，从信息中提取界面内非控件信息，即文本内容、图片信息等。其中，对提取的文本内容，可以直接对文字内容进行提取；对于提取的图片内容，可以使用例如OCR文字识别方法提取图片中的文字信息以及使用例如物体识别方法提取图片中的物体信息。

图中进一步示出，在步骤S211处，针对场景类，提取例如视频帧分割物体数量、物体位置、物体类型。具体而言，对于识别到的视频帧的整体分割信息和时间轴信息，可以利用例如程序读取对应时间的视频帧分割信息，进而对信息进行归一化和分割特征提取，以获得视频帧分割物体数量、物体位置、物体类型等。接着，对当前帧视频与上一帧视频进行特征相似性计算并设定相似性阈值，当计算结果大于相似性阈值时，则视为相同场景，进而提取当前帧视频的前述场景信息。当计算结果小于相似性阈值时，关闭上一个场景，获得场景的开始时间和结束时间，将场景开始时间和结束时间进行保存，并开启新场景列表进行当前视频帧的信息存储。基于前述提取的各类型的内容，可以进行知识构建，以形成结构化知识表示。具体而言，通过将各类型的内容进行还原，将还原后的信息采用例如JSON的数据结构进行表示。

图3是示出根据本申请实施例的对交互类信息的结构化知识表示的示例性示意图。如图3中所示，在步骤S301处，分别对提取的鼠标位置坐标和键盘光标位置坐标进行整数化处理，并对鼠标、键盘各自的当前状态进行识别。其中，对于鼠标交互信息而言，当鼠标的当前状态识别为运动状态时，在步骤S302处，还原当前场景下鼠标的运动轨迹。当鼠标的当前状态识别为静止状态，在步骤S303处，还原鼠标的停留时间区间。当鼠标的当前状态识别为点击状态时，在步骤S304处，还可以检测为左键点击还是右键点击，并且在步骤S305处，将前述信息还原成包含与鼠标交互相关的复合信息（包含例如交互类型、交互位置、交互时间、交互状态、交互行为）的JSON结构。

对于键盘光标交互信息而言，当键盘的当前状态识别为静默模式时，在步骤S306处，还原键盘的静默时间段。当键盘的当前状态识别为打字模式时，在步骤S307处，进行录入文字动作信息检测，以记录用户场景内的输入内容。与鼠标交互信息类似地，在步骤S308处，将前述信息还原成包含与键盘光标交互相关的复合信息的JSON结构。

图4是示出根据本申请实施例的对动作类信息的结构化知识表示的示例性示意图。如图4中所示，在步骤S401处，对提取的动作类信息进行归一化处理并识别动作类型，包括例如按钮、下拉框、菜单等动作。当动作类型识别为按钮动作时，在步骤S402处，还原按钮所在界面、按钮点击时间、按钮上文字等信息。当动作类型识别为下拉框动作，在步骤S403处，还原下拉框所在界面、下拉框选择时间、下拉框选择内容等信息。当动作类型识别为菜单动作，在步骤S404处，还原菜单所在界面，菜单选择时间和具体选择菜单的内容。进一步地，在步骤S405处，将前述信息还原成包含与动作信息相关的复合信息（包含例如动作类型、动作对应控件、动作位置、动作时间、动作行为信息等）的JSON结构。

图5是示出根据本申请实施例的对数据类信息的结构化知识表示的示例性示意图。如图5中所示，在步骤S501处，对提取的数据类信息进行归一化处理和数据类型识别，以将数据分为原始文字类、图片文字类、图片物体类。其中，对原始文字类数据和图片文字类数据，在步骤S502处，首先使用例如命名实体识别算法还原多种实体信息。接着，在步骤S503处，利用例如机器学习或者正则匹配等计算方法还原位置类、时间类信息。对图片物体类数据，在步骤S504处，还原识别到的物体名称、物体位置等信息，并在步骤S505处，将前述信息还原成包含与数据类信息有关的复合信息（包含例如数据类型、原始内容、数据信息等）的JSON结构。

图6是示出根据本申请实施例的对场景类信息的结构化知识表示的示例性示意图。如图6中所示，在步骤S601处，对提取的场景类信息进行归一化处理，接着在步骤S602处，对归一化后的信息进行还原，以还原场景开始时间、结束时间、场景内出现的场景物体信息等信息。进一步地，在步骤S603处，将前述信息还原成包含与场景类信息相关的复合信息（包含例如场景开始时间、场景结束时间、场景物体信息等）的JSON结构。

基于上述还原的交互、动作、数据和场景信息，通过以场景为知识主体，将交互信息、动作信息、数据信息关联起来进行知识构建，最终形成用户视觉域的场景化多维度知识表示并进行统一存储，从而为后续的基于场景的认知域分析提供有力的数据支撑。

图7是示出根据本申请实施例的整体知识构建的示例性示意图。如图7中所示，在步骤S701处，首先针对单个场景，根据场景的起止时间，将所有发生在该时间段内的交互信息、动作信息、数据信息与场景信息进行关联。接着，在步骤S702处，针对该场景全量信息进行物体数量、交互次数、动作次数、文字内容总量、图片总量等数据统计。具体地，在步骤S702-1、步骤S702-2、步骤S702-3以及步骤S702-4处，针对交互类信息进行交互位置、交互类型、交互状态的统计分析；针对动作类信息进行动作位置、动作类型、动作状态信息的统计分析；针对文字类信息的所处位置、分词结果、实体类型与关键字进行统计与分析以及针对图片物体进行去重、所处位置、物体类型与物体数量统计分析。最后，在步骤S703处，将前述结果一并通过结构化形式表示，从而形成关于视觉域信息的知识体构建。

图8是示出根据本申请实施例的视觉域信息知识构建的装置800的示例性结构框图。如图8中所示，该装置800可以包括获得模块801、提取模块802和构建模块803。其中，获得模块801可以用于获得用户操作电子设备时屏幕上所显示的视觉域信息。在一个实施场景中，可以通过视频采集器，进行视频域信息的采集，对采集的视觉域信息可以通过数据传输方式汇聚到指定的存储服务器上，后续可以由设置于例如信息处理终端上的获得模块801获得，并由提取模块802和构建模块803进行处理。其中，数据传输的方式包括不限于文件共享、流媒体服务推送等，数据传输媒介包括不限于有线网络、无线网络（WIFI）、蓝牙等。

提取模块802可以用于对视觉域信息进行内容提取。在一个实施例中，提取模块802可以通过对视觉域信息按照认知范围进行物体识别和分割，接着对分割后的结果进行分类，进而对不同类型的内容，进行与类型相对应的内容提取。其中，类型包括交互类、动作类、数据类和场景类中的至少一种，而交互类可以包括例如鼠标和键盘光标等，动作类可以包括例如软件界面中的按钮、下拉框和菜单等，数据类可以包括例如软件界面中的文本和图片等，场景类可以包括例如视频帧的整体分割信息和时间轴信息。

在一个实施例中，该提取模块802可以针对交互类，提取例如鼠标和键盘光标所在位置和样式信息等内容。针对动作类，提取例如按钮位置、按钮是否点击、按钮图标、按钮上文字信息，下拉框位置、下拉框选项列表、下拉框选中内容，菜单分级、菜单选项列表、菜单选中内容等内容；针对数据类，提取文本内容、图片信息等内容；针对场景类，提取例如视频帧分割物体数量、物体位置、物体类型等内容。

构建模块803可以用于利用提取的内容，进行知识构建，以形成结构化知识表示。进一步地，该构建模块803可以对交互类提取的信息，进行还原，以获得包括交互类型、交互位置、交互时间、交互状态、交互行为的数据结构；对动作类提取的信息，进行还原，以获得包括动作类型、动作对应控件、动作位置、动作时间、动作行为的数据结构；对数据类提取的信息，进行还原，以获得包括数据类型、原始内容、数据信息的数据结构以及对场景类提取的信息，进行还原，以获得包括场景开始时间、场景结束时间、场景物体信息的数据结构。接着，以还原的场景信息为知识主体，将还原的交互信息、动作信息、数据信息关联起来，来进行知识构建。关于前述知识构建的更多细节，可以参考图1-图7所描述的与该装置对应执行的方法，本申请在此不再赘述。

图9是示出根据本申请实施例的进行屏幕镜像的示例性示意图。如图9所示，利用视频采集卡901等外置设备对操作人员1、操作人员2所使用的显示设备902进行数据镜像，将镜像后的屏幕镜像信息（也即本申请实施例的视觉域信息）传输到外置的视频接收装置903上。在实现场景中，可以使用网络方式，将视频接收装置903上的屏幕镜像信息通过流媒体推服务技术推送到信息处理终端904上的流媒体服务上，以执行如上述图1-图7所描述的操作，从而实现知识构建，以便有效地对用户进行认知理解与分析。

图10是根据本申请实施例的电子设备1000的示例性结构框图。如图10中所示，本申请的电子设备1000可以包括处理单元1001和存储单元1002，其中处理单元1001和存储单元1002之间通过总线进行通信。存储单元1002存储有视觉域信息知识构建的程序代码，当所述程序代码由所述处理单元1001执行时，使得实现根据前文结合附图描述的方法步骤，例如获得用户操作电子设备时屏幕上所显示的视觉域信息；对所述视觉域信息进行内容提取；以及利用提取的内容，进行知识构建，以形成结构化知识表示。

根据上述结合附图的描述，本领域技术人员也可以理解本申请的实施例还可以通过计算机可读存储介质来实现。该计算机可读存储介质上存储有视觉域信息知识构建的计算机可读指令，该计算机可读指令被一个或多个处理器执行时，实现本申请结合附图1-图7所描述的视觉域信息知识构建的方法。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

应当注意，尽管在附图中以特定顺序描述了本申请方法的操作，但是这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

应当理解，当本申请的权利要求、当说明书及附图中使用到术语“第一”、“第二”、“第三”和“第四”等时，其仅用于区别不同对象，而不是用于描述特定顺序。本申请的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的，而并不意在限定本申请。如在本申请说明书和权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解，在本申请说明书和权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

虽然本申请的实施方式如上，但所述内容只是为便于理解本申请而采用的实施例，并非用以限定本申请的范围和应用场景。任何本申请所述技术领域内的技术人员，在不脱离本申请所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本申请的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种视觉域信息知识构建的方法，包括：

获得用户操作电子设备时屏幕上所显示的视觉域信息；

对所述视觉域信息进行内容提取；以及

利用提取的内容，进行知识构建，以形成结构化知识表示。

2.根据权利要求1所述的方法，其中，对所述视觉域信息进行内容提取包括：

对所述视觉域信息按照认知范围进行物体识别和分割；

对分割后的结果进行分类；以及

对不同类型的内容，进行与类型相对应的内容提取。

3.根据权利要求2所述的方法，其中，类型包括交互类、动作类、数据类和场景类中的至少一种。

4.根据权利要求3所述的方法，其中，

交互类包括鼠标和键盘光标；

动作类包括软件界面中的按钮、下拉框和菜单；

数据类包括软件界面中的文本和图片；

场景类包括视频帧的整体分割信息和时间轴信息。

5.根据权利要求4所述的方法，其中，对不同类型的内容，进行与类型相对应的内容提取包括：

针对交互类，提取鼠标和键盘光标所在位置和样式信息；

针对动作类，提取按钮位置、按钮是否点击、按钮图标、按钮上文字信息，下拉框位置、下拉框选项列表、下拉框选中内容，菜单分级、菜单选项列表、菜单选中内容；

针对数据类，提取文本内容、图片信息；

针对场景类，提取视频帧分割物体数量、物体位置、物体类型。

6.根据权利要求4或5所述的方法，其中，利用提取的内容，进行知识构建，以形成结构化知识表示包括：

对交互类提取的信息，进行还原，以获得包括交互类型、交互位置、交互时间、交互状态、交互行为的数据结构；

对动作类提取的信息，进行还原，以获得包括动作类型、动作对应控件、动作位置、动作时间、动作行为的数据结构；

对数据类提取的信息，进行还原，以获得包括数据类型、原始内容、数据信息的数据结构；

对场景类提取的信息，进行还原，以获得包括场景开始时间、场景结束时间、场景物体信息的数据结构。

7.根据权利要求6所述的方法，其中，利用提取的内容，进行知识构建，以形成结构化知识表示还包括：

以还原的场景信息为知识主体，将还原的交互信息、动作信息、数据信息关联起来，来进行知识构建。

8.根据权利要求2所述的方法，其中，利用经过训练的识别和分割模型，对所述视觉域信息按照认知范围进行物体识别和分割。

9.一种视觉域信息知识构建的装置，包括：

获得模块，用于获得用户操作电子设备时屏幕上所显示的视觉域信息；

提取模块，用于对所述视觉域信息进行内容提取；以及

构建模块，用于利用提取的内容，进行知识构建，以形成结构化知识表示。

10. 一种电子设备，包括：

处理单元；以及

存储单元，其上存储有程序代码，当所述程序代码被所述处理单元执行时，使所述处理单元执行如权利要求1-8中任一项所述的方法。