CN116615716A

CN116615716A - 智能捕获以提供输入和行动建议的系统和方法

Info

Publication number: CN116615716A
Application number: CN202280008823.1A
Authority: CN
Inventors: 纳雷什·普尔; 斯里拉姆·沙尚克; 斯里拉克希米·普努鲁; 巴拉特·拉杰·坎杜尔拉贾; 万拉杰·瓦拉; 阿尤什·亚达夫; 阿迪蒂·阿尼尔·卡甘内; 苏迪普·库马尔·科达利; 里沙布·库马尔; 斯里尼瓦萨·拉奥·西迪; 曼朱纳特·比玛帕·乌吉纳科帕; 曼苏尔·瓦里亚特帕拉穆罕默德; 赫曼特·蒂瓦里; 德瓦拉卡·巴米迪帕蒂·斯雷瓦察; 安基塔·巴哈德瓦杰; 维平·拉奥; 利希特·阿马尔瓦杰; 维巴夫·阿加瓦尔; 亚什万特·辛格·赛尼; 希曼舒·阿罗拉
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2021-08-18
Filing date: 2022-08-10
Publication date: 2023-08-18

Abstract

示例性系统和方法向用户提供输入建议，以改善用户设备上的用户体验。输入建议可以是从设备上的另一应用程序到用户正在使用的当前应用程序的填写信息、执行搜索(而无需用户复制‑粘贴数据或手动地录入数据)的信息、对由用户接收到的消息/通知的响应、待在应用程序之间共享的信息/内容/数据(而无需在应用程序之间切换)、以及可以由用户使用的表情符号/GIF。该方法包括：分析显示在设备上的一个或多个屏幕的一个或多个内容；生成每个屏幕的所分析的一个或多个内容的逻辑树结构和数据混搭模型中的至少一者；以及向用户提供推荐，推荐可以是连接动作或输入建议。

Description

智能捕获以提供输入和行动建议的系统和方法

技术领域

本公开涉及改善用户设备上的用户体验，并且更特别地，涉及通过向用户提供输入建议，通过使用跨设备的内容合并的连接动作来改善用户设备上的用户体验。

背景技术

目前，用户可以使用键盘(其可以是物理键盘或数字键盘或虚拟键盘等)来向显示在用户设备上的各种源提供输入。例如，用户设备的用户可以向包括各种页面/表单的多个应用程序提供联系人信息诸如家庭地址、电话号码、电子邮件地址、银行详细信息等。另外，用户在日常情况，如填写数据录入字段，搜索信息和响应下可能会遇到困难。用户设备的用户必须通过参考从其他应用程序接收到的内容或在用户设备上接收到的页面来复制和粘贴内容或手动地提供数据。在跨包括在应用程序中的不同相关页面/表单进行搜索或浏览时，用户必须手动地键入和重新键入相同事项。因此，用户难以在用户设备上的不同页面/表单上共享相关信息或多次键入相同信息。另外，用户必须不断地在应用程序/页面/表单之间切换，以多次搜索和共享相同一组信息。

另外，具有不同布局和显示的页面/表单/应用程序能够使审查屏幕内容来推导有意义的信息变得相当具有挑战性。在一些情况下，困难可以由从指定为不可编辑的表单/页面中的输入字段检索信息产生。在屏幕主要包括图像的情况下，基于文本或基于视图的技术可以不起作用。例如，在社交媒体平台上，各种字段(诸如文本、图像等)不可访问，并且内容无法被捕获，并且因此可能难以将此类信息用于诸如命令的视觉问答(VQA)等的目的。基于图像分析的现有解决方案使用了复杂的架构。

另外，用户设备以通知、图像、用户创建的数据和复制数据的形式接收多个信息源。然而，这些多个源尚未被合并以提供允许用户快速地完成任务的动作。当多个选项(应用程序、应用程序动作)可用时，不存在提供最佳可能的选项的机制。另外，当基于先前选取的选项来提供动作时，尚未考虑用户响应。

现有方法中建议的动作仅基于所选择的内容，并且动作建议模型在远程服务器上被训练并推送到设备来用于预测动作。现有技术中的建议基于搜索记录和白名单网站来生成，这并不提供动作的动态性。在现有方法中，建议仅包括可在当前屏幕中发现的匹配实体和先前映射的一个实体动作。常规系统谈论寻找其他类似实体(餐厅名称到其他餐厅名称)。另外，常规系统通过共享将动作发射到辅助设备，但不考虑其他设备数据以修改动作。

常规机制中存在的问题可以包括基于屏幕截图/图像的屏幕内容边界提取，而不具有基于屏幕类型的任何智能。现有方法在运行时的用户设备上不适用于连续地参与的屏幕内容，如正在进行的会话。推断时间在中央处理单元(CPU)上是3.98秒。常规系统可以扩展到用户设备/服务器上有限数量的内容类型。模型的大小随服务器/用户设备上类的数量的增加而增大。

另外，基于图像分析的方法的缺点是对视图或内容类型进行分类，无法理解屏幕上的内容之间的关系。现有方法在运行时的设备上不适用于连续地参与的屏幕内容，如正在进行的会话。在字段分类方面，现有方法无法对字段类型进行分类，并且仅可以检测输入字段是否采用敏感数据。每个应用程序的平均分析时间是5.7秒，其适用于对给定应用程序的布局进行离线分析，这对商业化而言是不可行的。

现有的现有技术采用诸如应用程序屏幕/响应上下文(屏幕上示出的布局)的输入并且将输出提供为增强的应用程序屏幕/响应上下文(可交互的超链接)。常规系统执行意图相关联，分析所有可用/可访问的上下文输入，包括命名实体(歌曲、电影等)和短语(时间/日期、翻译短语)。这些常规系统主要分析何物在屏幕上可见，例如命名实体、显示在屏幕上的文本，但无法提供屏幕内容的结构化解释，示例：会话屏幕理解：发送的消息是什么、接收的消息是什么、哪条消息具有高优先级、用户应响应哪条消息等。

其他常规系统采用输入作为显示在设备上的屏幕，并且在用户屏幕上以自然语音交互的形式提供输出。这些系统包括分析屏幕(显示在屏幕上的UI元素)并且构建知识图谱的上下文协调器。它包括对显示在屏幕上的文本、图像、其位置、内容之间的关系等的理解。常规系统并不提供在屏幕上可见的屏幕内容的结构化解释，示例：会话屏幕理解。另外，它无法对显示在屏幕上的字段进行分类，示例：在各种应用程序中将存在多个输入字段(姓名、银行帐号、地址字段等)。在不对这些字段进行分类的情况下，无法提供输入建议。

另一常规系统包括使用嵌入在移动设备上对个人实体进行建模，嵌入提供基于屏幕上的个人实体的推荐，谈论关于识别屏幕上的个人实体以及建立/更新个人知识库。进一步使用个人实体建模和个人知识库来提供推荐，推荐包括对用户的个性化辅助：确定输入的完成、识别类似个人实体的集群或分组(例如：运动分组)、建议广告等。

图1、图2和图3是根据如本文所公开的实施例的常规技术的图，其描绘在基于屏幕上的所分析的内容来建议动作时涉及的深度布局、屏幕辨识和架构。

在图1中，模型被训练以预测像素级概率图，并且利用简单的后处理过程来生成最终检测边界框及其对应的标记和置信度分数。所涉及的步骤序列是对图像进行下采样的预处理、通过DNN的推断和用于连通分量分析的后处理。

图1中的问题具有基于屏幕截图/图像的屏幕内容分类。没有基于智能的屏幕类型。所述方法在运行时的设备上不适用于连续地参与的屏幕内容，如正在进行的会话。推断时间在CPU上需要3.98秒，并且可以扩展到仅有限数量的内容类型。模型的大小随类的数量的增加而增大。零散的文本区域、不可分割的非文本区域、差的结果作为类的数量增加。

如图2所示，单发多盒检测器模型基于MobileNetV120 MB模型，10ms推断时间涵盖13个类-复选框(选择)、复选框(未选择)、容器、对话、图标、图片、页面控件、分段控件、滑块、文本、文本字段、转换(选择)和转换(未选择)。

问题由图2中的常规方法产生，常规方法是意旨对视图或内容类型进行分类的基于图像分析的方法。内容无法被解释以区分标题和正文、评论、标记等，并且无法理解屏幕上内容之间的关系。方法在运行时的设备上不适用于持续地参与的屏幕内容，如正在进行的会话。

如图3所示，离线分析的工具是基于呈apk格式的布局文件，检测输入字段是否采用敏感用户数据，根据基于关键字的数据集来工作。模块的输入是apk文件。这种常规方法中的问题可以包括它无法对字段类型进行分类或检测输入字段是否采用敏感数据。因此，每个应用程序的平均分析时间为5.7秒，其适用于对给定apk的布局进行离线分析。因此，这对商业化而言是不可行的。

因此，期望解决上述缺点或其他缺陷或者至少提供有用的替代方案。

发明内容

技术方案

本公开的实施例提供智能捕获以提供输入建议和动作建议的方法、系统和用户设备。

各种示例性实施例提供了一种通过向用户提供输入建议来改善用户设备上的用户体验的方法、用户设备和系统，其中，输入建议可以将来自先前或最近访问的表单/页面/应用程序的信息获取到用户正在使用的当前表单/页面/应用程序。在实施例中，输入建议用于执行搜索，而无需用户复制-粘贴数据或手动地将所述数据提供给由用户接收的消息/通知。另外，可提供待在各种表单/页面/应用程序之间共享的信息/内容/数据，而无需在各种媒体内容之间切换。另外，可以借助于可以由用户使用的表情符号/GIF等向用户提供建议。

各种示例性实施例提供用于通过合并用户设备接收的内容来提供连接动作的方法、用户设备和系统，所述内容(例如，通知、屏幕数据、剪贴板、选择的文本等)、核心应用程序数据(例如，消息、笔记、媒体、联系人等)、应用程序活动(应用程序动作/使用)、设备数据、附近的设备和通过数据混搭的用户上下文。

各种示例性实施例涉及一种通过向用户提供输入建议来改善用户设备上的用户体验的方法和系统，其中，输入建议可以基于深度屏幕捕获来确定。

各种示例性实施例提供在通过分析各种源(诸如消息、图像、文件和通知)来对相关类(例如，日期、联系人、帐户等)进行分类之后，向用户提出可以链接的操作(预测到用户的下一步操作)。

各种示例性实施例识别从多个源(如消息、图像、文件、通知)接收的重复数据，并且针对连接动作构造单个条目。

各种示例性实施例提供使用跨设备的内容合并来连接动作的方法和系统。

在一个实施例中，一种提供至少一个推荐的方法包括：用户设备从用户设备上的多个源中收集至少一个数据；用户设备将所收集的数据馈送到数据混搭模型；用户设备使用数据混搭模型识别数据的多个类型；用户设备使用数据混搭模型确定数据的这些类型之间的一种或多种关系；用户设备使用数据混搭模型将要由用户执行的一个或多个可能的动预测为所确定的关系的结果；以及用户设备根据预测向用户提供采取一个或多个动作的建议。

在实施例中，一种方法包括：用户设备分析显示在用户设备的一个或多个屏幕上的至少一个内容；用户设备根据所分析的至少一个内容生成至少一个逻辑树结构；用户设备基于所分析的至少一个内容的至少一个逻辑树结构通过解析照应语和先行语来检测所分析的内容之间的关系和共同参考；用户设备检测显示在用户设备的屏幕上的照应语；用户设备利用屏幕上的先行语解析所检测的照应语；用户设备从知识库获取待建议的候选内容；以及针对用户设备的用户的至少一次输入由用户设备提供所获取内容的推荐。

在实施例中，一种方法包括：用户设备分析显示在用户设备上的一个或多个屏幕的内容；用户设备生成每个屏幕的所分析的内容的至少一个逻辑树结构；用户设备根据至少一个逻辑树结构对屏幕的兴趣部分进行分类；用户设备检测并分类在显示在设备上的屏幕中需要用户输入的至少一个输入字段；用户设备基于所检测的屏幕的兴趣部分来从逻辑树结构获取待填写所检测的输入字段的候选内容；以及用户设备针对用户的输入提供对应于所获取内容的推荐。

当结合以下描述和附图考虑时，本文的实施例的这些和其他方面将被更好地了解和理解。然而，应当理解，以下描述是作为说明而非限制来给出的，虽然指示了至少一个实施例及其许多具体细节。在不脱离其精神的情况下，可以在本文的实施例的范围内做出许多改变和修改，并且本文的实施例包括所有此类修改。

附图说明

根据以下结合附图而进行的详细描述，将更清楚了解本公开的某些实施例的上述和其他方面、特征以及优点，在附图中：

图1、图2和图3是根据现有技术的常规技术图，其描绘在基于屏幕上的所分析的内容来建议动作时涉及的深度布局、屏幕辨识和架构；

图4示出根据各种示例性实施例的提供推荐的示例性环境；

图5是根据各种实施例的提供推荐的示例性用户设备的框图；

图6是根据各种实施例的示例性控制器的各种硬件部件的框图；

图7是根据各种实施例的提供推荐的示例性用户设备的框图；

图8A、图8B、图8C、图8D和图8E是示出根据各种实施例的向用户设备提供推荐的示例性方法的流程图；

图9示出根据各种实施例的向用户设备提供推荐的示例性架构；

图10A和图10B是描绘根据各种实施例的对来自用户设备的各种源的内容进行示例性深度屏幕捕获的图；

图11A、图11B和图11C是描绘根据如本文所公开的实施例的用户设备上的到用户的输入建议的示例性图；

图12A、图12B、图12C和图12D是描绘根据各种示例性实施例的基于屏幕上的所分析内容的动作建议的示例性图；

图13是描绘根据如本文所公开的实施例的用于向用户提供推荐的关于基于屏幕的TF-IDF的字段分类的示例性图；

图14是描绘根据如本文所公开的实施例的提供给用户的动作建议的示例行图；

图15A、图15B、图15C和图15D示出根据各种实施例的基于屏幕上的所分析的内容的输入建议和建议动作的示例性组合；

图16A、图16B和图16C示出根据各种实施例的基于屏幕上的所分析内容的输入建议和建议动作的示例性组合；

图17A示出根据各种实施例的其中用户设备提供连接动作的示例；

图17B、图17C和图17D示出根据各种实施例的其中用户设备(即，电子设备)通过考虑跨应用程序可用的数据来提供连接动作的示例；

图18和图19示出根据各种实施例的其中电子设备基于可用数据来创建数据混搭模型的示例；

图20示出根据各种实施例的电子设备基于新数据来创建数据混搭模型的示例；

图21示出根据各种实施例的电子设备通过考虑跨应用程序可用的数据来提供连接动作的示例；

图22A、图22B和图22C示出根据各种实施例的其中电子设备通过考虑跨应用程序可用的数据来提供连接动作(在应用程序中)的示例；

图23示出根据各种实施例的其中电子设备通过考虑跨应用程序可用的数据来提供连接动作的示例；

图24示出根据各种实施例的基于DNN的模型从所接收的输入提取实体的示例；

图25示出根据各种实施例的基于RegEx的剖析器从所接收的输入提取实体的示例；

图26示出根据各种实施例的CNN模型；

图27和图28示出根据各种实施例的电子设备从所接收的数据提供可执行建议的示例；

图29示出根据各种实施例的电子设备基于内容中可用的实体来执行动作映射的示例；

图30示出根据各种实施例的描绘推理引擎的操作的示例；

图31A、图31B、图32A和图32B示出根据各种实施例的电子设备通过考虑跨应用程序可用的数据来提供连接动作的示例；

图33A、图33B、图34A和图34B示出根据各种实施例的电子设备通过向连接设备传播动作来提供连接动作的示例；

图35A、图35B、图36A、图36B和图36C示出根据各种实施例的电子设备通过考虑跨应用程序可用的数据来提供连接动作的示例；

图37A和图37B示出根据如本文所公开的各种实施例的电子设备通过内容剖析提供连接动作的示例；

图38示出根据各种实施例的其中电子设备基于深度屏幕捕获来提供输入建议的示例；

图39示出根据各种实施例的其中电子设备在应用程序之间提供填写建议选项的示例；

图40和图41示出根据各种实施例的电子设备在应用程序之间提供搜索建议选项的示例；

图42和图43示出根据各种实施例的电子设备在应用程序之间提供响应建议选项的示例；

图44示出根据各种实施例的电子设备在应用程序之间提供共享建议选项的示例；

图45示出根据各种实施例的电子设备执行关系提取操作的示例；并且

图46示出根据各种实施例的电子设备执行兴趣提取操作的示例。

具体实施方式

参考附图中所示并在下面的描述中详细描述的非限制性实施方案来更全面地说明本文的实施方案及其各种特征和有利细节。省略了众所周知的部件和处理技术的描述，以免不必要地模糊本文的实施例。本文使用的示例仅仅是为了便于理解可以实践本文的实施例的方式，并且进一步使得本领域的技术人员能够实践本文的实施例。因此，这些示例不应被解释为限制本文实施例的范围。

术语“用户设备”和“电子设备”在专利公开中可互换使用。

本公开的各种实施例向用户提供输入建议或推荐以改善用户设备上的用户体验。参考附图，并且更特别地参考图1至图46描述各种示例性实施例，其中类似的参考字符指代对应的特征。

各种实施例提供基于用户设备的屏幕上的所分析的内容来提供用于由用户设备输出的推荐的方法和系统。内容可以从显示在屏幕上的多个源捕获，其中多个源可以包括但不限于社交媒体应用程序，诸如通知屏幕数据、剪贴板、来自网页浏览器的文本选择、设备数据、附近的设备和用户上下文。各种实施例针对每个应用程序生成所分析的内容的逻辑树结构。各种实施例可以检测并分类在当前正显示在用户设备上的应用程序中需要用户输入的一个或多个输入字段。各种实施例可以自动从逻辑树结构获取待填写在所检测的输入字段中的候选内容。因此，各种实施例可以针对输入向用户提供所获取内容的推荐。

各种实施例可以通过向用户提供输入建议来改善用户设备上的用户体验，其中，输入建议可以是从设备上的另一应用程序到用户正在使用的当前应用程序的填写信息、执行搜索(而无需用户复制-粘贴数据或手动地录入数据)的信息、对由用户接收到的消息/通知的响应、待在应用程序之间共享的信息/内容/数据(而无需在应用程序之间切换)、以及可以由用户使用的表情符号/GIF。各种实施例提供通过向用户提供输入建议来改善用户设备上的用户体验的方法和系统，其中输入建议可以基于深度屏幕捕获来确定。输入建议可以是基于从图像/文本/数据/内容提取的信息。输入建议可以是基于来自由用户访问/查看的至少一个先前屏幕的信息。输入建议可以是基于来自传入的消息的信息。输入建议可以是基于最近访问的内容/数据。

图4示出根据各种实施例的提供推荐的示例性环境。如图4所示，环境100包括连接到通信网络106和服务器110的用户设备102。在实施例中，用户设备102可以通过通信网络106和/或至少一个其他通信网络(未示出)连接到服务器110。用户设备102例如可以是但不限于膝上型计算机、台式计算机、笔记本计算机、设备到设备(D2D)设备、车辆到一切(V2X)设备、智能电话、可折叠电话、智能TV、平板计算机、沉浸式设备或物联网(IoT)设备。服务器110例如可以是但不限于云服务器、边缘服务器等。

通信网络106可以包括但不限于有线网络、增值网络、无线网络、卫星网络或其组合中的至少一种。有线网络的示例可以包括但不限于局域网(LAN)、广域网(WAN)、以太网等。无线网络的示例包括但不限于蜂窝网络、无线LAN(Wi-Fi)、蓝牙、低功耗蓝牙、Zigbee、Wi-Fi直接(WFD)、超宽带(UWB)、红外数据协会(IrDA)、近场通信(NFC)等。在实施例中，用户设备102和数据库212彼此可以直接和/或间接连接(例如，经由直接通信、经由接入点等)。在实施例中，用户设备102和数据库可以经由中继器、集线器和网关彼此连接。用户设备102和数据库可以以各种方式(包括上述那些)中的任一种彼此连接，并且可以同时以各种方式(包括上述那些)中的两种或更多种彼此连接。

用户设备102例如可以是使得用户能够分析用户设备102上的内容的设备。内容可以例如来自用户设备102的各种源，所述各种源可以包括但不限于通知、屏幕数据、剪贴板、文本选择、核心应用程序数据(诸如消息、笔记、媒体、联系人)、应用程序活动设备数据、附近的设备等。用户设备102可以通过借助于查找跨设备所接收的相关内容构造与推理相关联的动作来针对给定输入智能地提供动作。

用户设备102可以通过考虑用户在消费建议之后执行的下一组动作/事物来动态地建议未来动作。用户设备102可以通过查找相关其他应用程序数据来针对应用程序提供建议，并且基于当时发生的重要事件来修改建议。这些建议使用类似应用程序的内容，诸如所下的订单、查看的内容、位置处进行的活动提供。基于所提出的方法，连接动作基于用户上下文来从一个设备的数据导出到其他连接设备数据。

图5是根据各种实施例的示出用户设备的提供推荐的各种单元的框图。用户设备102包括存储器202、通信接口204(例如，包括通信电路)、输入单元206(例如，包括输入电路)、处理器210(例如，包括处理电路)、输出单元208(例如，包括输出电路)、数据库212和控制器(例如，包括控制电路)214。

存储器202可以包括来自以下各者之中的至少一种类型的存储介质：快闪存储器型存储介质、硬盘型存储介质、多媒体卡微型存储介质、卡型存储器(例如、SD或XD存储器)、随机存取存储器(RAM)、静态RAM(SRAM)、只读存储器(ROM)、电可擦除可编程ROM(EEPROM)、可编程ROM(PROM)、磁存储器、磁盘或光盘。

存储器202可以存储显示在用户设备102的屏幕上的各种源，各种源可以包括但不限于通知、屏幕数据、媒体、社交媒体应用程序、联系人、剪贴板、文本选择、笔记、媒体、设备数据、附近的设备等。存储器202可以存储用户在执行各种动作时的兴趣区域。

例如，如果用户接收到电子邮件邀请，则可以将邀请登记在日程表中。邀请的登记是“连接动作”的示例。当用户接收到确认航班预订的消息时，可以将航班预订连接到目的地附近的餐厅。将航班预订连接到餐厅是第二个连接动作的示例。当将所接收的消息中提及的地址链接到地图应用程序时，消息的地址信息被链接。

在分析并存储通过文本消息接收到的帐户信息之后，如果它是需要帐户信息的文本输入，则可以提供录入所存储帐户的建议[输入建议]。例如，如果在特定社交媒体平台上进行电影搜索，并且该社交媒体平台不包括所搜索电影的任何评论，则可以通过链接到该平台来在另一个社交媒体平台上自动进行搜索[输入建议]。

存储器202还可以包括管理向用户提供建议的内容的管理模块。本文的实施例可互换地指代控制器214和管理模块，其中这两个术语均指代控制器214。

存储器202还可以存储神经网络的学习模块308(参见图7)。神经网络的学习模块308可以由控制器214处理以获得来自用户设备102的捕获单元的输入。可以向学习模块308提供用户对消费动作的选择或到用户设备的输入的建议。可以持续地向学习模块提供用户对消费内容的选择/决定。

神经网络，即推荐模块312的示例可以是但不限于人工智能(AI)模型、多类支持向量机(SVM)模型、卷积神经网络(CNN)模型、深度神经网络神经网络(DNN)、递归神经网络(RNN)、受限玻尔兹曼机(RBM)、深度信念网络(DBN)、双向递归深度神经网络(BRDNN)、生成对抗网络(GAN)、基于回归的神经网络、深度强化模型(利用ReLU激活)、深度Q网络等。神经网络可以包括可以以分层布置的多个节点。层的示例可以是但不限于卷积层、激活层、平均池层、最大池层、级联层、丢弃层、全连接层、SoftMax层等。每个层具有多个权重值，并且通过前一层的计算和多个权重/系数的运算执行层运算。神经网络层的拓扑结构可以基于相应网络的类型来变化。在示例中，神经网络可以包括输入层、输出层和隐藏层。输入层接收层输入并切将所接收的层输入转发到隐藏层。隐藏层将从输入层接收到的层输入转换为表示，所述表示可用于在输出层中生成输出。隐藏层从输入提取有用/低级特征，在网络中引入非线性并且降低特征维度，以使特征等同于缩放和平移。层的节点可以经由边缘完全连接到相邻层中的节点。在输入层的节点处接收到的输入可以经由激活函数传播到输出层的节点，所述激活函数基于分别与连接这些层的这些边中的每一条相关联的系数/权重来计算网络中每个连续层的节点的状态。

可以使用至少一种学习方法来训练推荐模块312(参见图7)。学习方法的示例可以是但不限于监督学习、非监督学习、半监督学习、强化学习、基于回归的学习等。推荐模块312可以是神经网络模型，其中若干层、处理这些层的顺序以及与每个层相关的参数可以是已知的并且是固定的以用于执行预期的功能。与每个层相关的参数的示例可以是但不限于与这些层相关的激活函数、偏置、输入权重、输出权重等。可以通过非易失性存储器、易失性存储器和/或控制器214执行与学习方法相关联的功能。控制器214可以包括一个或多个处理器。一个或多个处理器例如可以是通用处理器，诸如中央处理器(CPU)、应用程序处理器(AP)等；纯图形处理单元，诸如图形处理器处理单元(GPU)、视觉处理单元(VPU)；和/或人工智能(AI)专用处理器，诸如神经处理单元(NPU)。

在此，通过学习来提供是指通过将学习方法应用于多个学习数据、预定义操作规则或神经网络来形成所需特性的推荐模块312。推荐模块312可以在可执行根据实施例学习的用户设备102本身中执行神经网络的功能，和/或可以通过单独的服务器/系统(例如，服务器110)实现。

返回到图5，通信接口204(例如，包括通信电路)可以包括一个或多个部件，其使得用户设备102能够使用由通信网络106支持的通信方法与另一设备(例如，服务器110)通信。通信接口204可以包括部件诸如有线通信器、短程通信器、移动/无线通信器和广播接收器。

有线通信器可以使得用户设备102能够使用诸如但不限于有线LAN、以太网等的通信方法与其他设备通信。短程通信器可以使得用户设备102能够使用通信方法与其他设备通信，所述通信方法诸如但不限于低功耗蓝牙(BLE)、近场通信器(NFC)、WLAN(或Wi-fi)、Zigbee、红外数据协会(IrDA)、Wi-Fi直接(WFD)、UWB通信、Ant+(可互操作的无线传送能力)通信、共享无线接入协议(SWAP)、无线宽带互联网(Wibro)、无线千兆联盟(WiGiG)等。移动通信器可以在移动通信网络/蜂窝网络上与基站、外部终端或服务器中的至少一者发射/接收无线信号。例如，根据文本/多媒体消息的发射/接收，无线信号可以包括语音呼叫信号、视频电话呼叫信号或各种类型的数据。广播接收器可以通过广播信道从外侧接收广播信号和/或广播相关信息。广播信道可以包括卫星信道和地波信道。在实施例中，电子设备102可以或可以不包括广播接收器。

输入单元206(例如，包括输入电路)可以被配置为使得用户能够与用户设备102交互。输入单元206例如可以包括捕获单元，所述捕获单元被配置为捕获由用户设备102接收到的媒体内容，诸如通知、消息、剪贴板内容、笔记、联系人、设备数据等。在本文提到的捕获单元/输入单元可以是用于捕获来自设备的各种源的输入(视频输入、图像输入或任何媒体输入)的任何种类的设备。

输入单元206可以包括用于捕获媒体的任何种类的设备。输入单元206可以是但不限于数字相机、媒体捕获设备、网页相机、单镜头反光(SLR)相机、数字单反(DSLR)相机、无反光镜相机、紧凑型相机、录像机、数字录像机等。本文所提到的媒体可以是但不限于视频、图像等。

输出单元208(例如，包括输出电路)可以被配置为基于由用户设备102先前接收到的内容来向用户提供推荐建议。

例如，设备上的AI方法用于通过合并用户在设备框架数据中接收的内容来提供连接动作，所述内容如：(通知、屏幕数据、剪贴板、所选择文本)、核心应用程序数据(消息、笔记、媒体、联系人等)、应用程序活动(应用程序动作/使用)、设备数据、附近的设备和通过数据混搭的用户上下文。

在通过用户行为模式/推理、用户在消费建议/根据建议行动之后进行的下一组事情提供连接动作时存在动态性。在构造建议(用户行为推理和类似应用程序数据)时，已考虑类似的应用程序数据/使用。

智能机制可以识别从多个源(如消息、图像、文件、通知)接收的重复数据，并且针对连接操作构造单个条目(多模式数据与单个连接动作的类似性)。控制器214可以包括一个或多个处理器。一个或多个处理器可以是通用处理器，诸如中央处理器(CPU)、应用程序处理器(AP)等；纯图形处理单元，诸如图形处理单元(GPU)、视觉处理单元(VPU)；和/或人工智能(AI)专用处理器，诸如神经处理单元(NPU)。

图6是根据各种实施例的控制器214的各种硬件部件的框图。在实施例中，控制器包括排序器、解析器、推荐器、数据转换器、动作检测器、实体构造器、通知观察器、剪贴板观察器、消息观察器、媒体观察器和内容捕获观察器。通知观察器监视显示在屏幕上的通知。剪贴板观察器监视显示接收在屏幕上的复制数据，消息观察器监视显示在屏幕上的消息，媒体观察器监视显示在屏幕上的媒体，并且内容捕获观察器观察显示在屏幕上的内容。解析器解析上下文相关数据和动作相关数据。数据转换器包括数据勒索单元以从内容提取数据。动作检测器检测屏幕上的动作。图6中的部件可以例如使用各种电路和/或可编程部件实现。

图7是示出根据如本文所公开的实施例的用户设备102的用于提供推荐的各种单元的框图。如图7所描绘，内容输入管理系统300包括内容捕获模块310、分析和树生成模块302、提取模块304、分类模块306、学习模块308和推荐模块312。

内容捕获模块310可以使用屏幕理解框架通过深度屏幕捕获机制来捕获屏幕的内容，所述屏幕理解框架包括：屏幕理解、屏幕上的字段分类。屏幕理解：深入理解各种屏幕类型的屏幕内容(对话屏幕理解、媒体屏幕理解等)。

分类模块306可以通过理解基于屏幕内容的TF-IDF提取，通过使用N阵列深度优先遍历映射视图来执行字段分类，字段分类作为系统部件用来实现系统范围的用户案例。

屏幕字段矩阵(SFM)是稀疏矩阵，其将每个输入字段的复合权重存储在每个屏幕中。矩阵列标题表示每个屏幕中的令牌(单词)，矩阵行标题表示输入字段，SFM存储输入字段中的每一个跨不同屏幕的权重。

提取模块304可以解析屏幕内的共同参考并且提取关系(基于屏幕的共同参考解析，在结构化解释之后)。提取模块304可以根据屏幕内容的结构化解释提取屏幕上的兴趣区域，并且基于屏幕所识别的兴趣区域来提取屏幕上的内容。

神经网络的学习模块308可以由控制器214处理以获得来自用户设备102的捕获单元的输入。可以向学习模块308提供用户对消费动作的选择或到用户设备102的输入的建议。可以持续地向学习模块提供用户对消费内容的选择/决定。

推荐模块312可以基于用户接收或消费的内容来提供建议以向用户推荐输入和用户可以执行的动作建议。推荐模块312可以基于由设备提取的所识别的上下文和兴趣区域来获取最近使用的内容。

图8A、图8B、图8C、图8D和图8E是示出根据各种实施例的用于为用户设备102提供推荐的示例性方法的流程图。参考图8A，在步骤802，方法包括从用户设备102上的多个源收集至少一个数据。在步骤804，方法包括将所收集的数据馈送到数据混搭模型。

在步骤806，方法包括使用数据混搭模型识别多种类型的数据。

在步骤808，方法包括使用数据混搭模型确定数据类型之间的一种或多种关系。

在步骤810，方法包括用户设备102预测待由用户执行的一个或多个可能的动作作为使用数据混搭模型确定的关系的结果。

在步骤812，方法包括根据预测向用户提供采取一个或多个动作的建议。

参考图8B，在步骤814，方法包括分析显示在用户设备102的一个或多个屏幕上的至少一个内容。在步骤816，方法包括从所分析的至少一个内容生成至少一个逻辑树结构。在步骤818，方法包括基于所分析的至少一个内容的至少一个逻辑树结构通过解析照应语和先行语来检测所分析的内容之间的关系和共同参考。在步骤820，方法包括检测显示在用户设备102的屏幕上的照应语。在步骤822，方法包括利用屏幕上的先行语解析所检测到照应语。在步骤824，方法包括从知识库获取待建议的候选内容。在步骤826，方法包括针对用户设备102的用户的至少一个输入提供对应于所获取的内容的推荐。

参考图8C，在步骤900，方法包括分析显示在用户设备102上的一个或多个屏幕的内容。在步骤902，方法包括生成每个屏幕的所分析的内容的至少一个逻辑树结构。在步骤904，方法包括根据至少一个逻辑树结构对屏幕的兴趣部分进行分类。在步骤906，方法包括检测并分类在显示在设备上的屏幕中需要用户输入的至少一个输入字段。在步骤908，方法包括基于所检测的屏幕的兴趣部分来从逻辑树结构获取待填写所检测的输入字段的候选内容。在步骤910，方法包括针对用户的输入提供对应于所获取的内容的推荐。

参考图8D，在步骤912，方法包括检索一个或多个屏幕。在步骤914，方法包括利用所检索的一个或多个屏幕生成一个或多个分段屏幕树。在步骤916，方法包括基于分段屏幕树来分析所检索的一个或多个屏幕的结构化解释。在步骤918，方法包括将结构化解释存储在用户设备102的存储器中。在步骤920，方法包括分析当前屏幕的结构化解释并且应用程序字段分类。

参考图8E，在步骤922，方法包括从用户设备102上的多个源收集至少一个数据。在步骤924，方法包括将所收集的数据馈送到数据混搭模型。在步骤926，方法包括使用数据混搭模型识别多种类型的所收集的数据。在步骤928，方法包括使用数据混搭模型确定数据类型之间的一种或多种关系。在步骤930，方法包括使用数据混搭模型预测待由用户执行的一个或多个可能的动作作为所确定的关系的结果。在步骤932，方法包括根据预测向用户提供采取一个或多个动作的建议。

图9示出根据各种实施例的向用户设备102提供推荐的架构图。如图所示，提供连接动作可以在用户设备102中通过合并用户在设备框架数据中接收的内容来执行，所述内容如：(通知、屏幕数据、剪贴板、所选择文本)、核心应用程序数据(消息、笔记、媒体、联系人等)、应用程序活动(应用程序动作/使用)、设备数据、附近的设备和通过数据混搭的用户上下文。

如图9所示，可以通过借助于查找跨设备所接收的相关内容构造与推理相关联的动作来针对给定输入智能地提供动作。存在在通过考虑用户在消费建议之后进行的下一组操作/事情来建议未来动作时的动态性机制。应用程序中的建议可以通过查找相关的其他应用程序数据并且基于当时发生的重要事件来修改建议来提供。

因此，将利用最佳可能的应用程序通过内容剖析和从应用程序接收到的先前数据建议使用类似应用程序的内容，如所下的订单、查看的内容、位置处进行的活动、基于用户在动作中的上下文从一个设备的数据导出到其他连接设备的传播动作。

因此，智能系统可以区分从多个源接收到的相同数据，如(通过消息、图像卡、文件、通知等的事件邀请)，以用于唯一性检测，这避免重复动作传播。

如图9所示，在示例中，用户设备102接收通知并识别实体和内容类(例如，<PNR：BMF1FQ-6E 6137，日期：2021/03/22 12:45–1400，值机链接：https://bit.ly/3jYdsCf，信息链接：https://bit.ly/2ZHzqI8，目的地：班加罗尔，始发地：海得拉巴>)。基于内容类，用户设备102使用先验知识解析器和数据混搭模型确定内容类型(例如，旅行、提醒)。基于内容类型，用户设备(102)链接用户的各种活动(即，<屏幕活动：浏览器，剪贴板：RT-CPR，笔记-商务旅行>，<应用程序能力：(医学检查：Practo，购物：亚马逊出租车：Ola)>)。用户设备102基于链接生成来建议动作(即，<可能的动作：网页值机、预订预约、出租车预订、班加罗尔的天气、下订单>)并且基于用户要求对订单进行优先级排序或更新订单。

图10A和图10B是描绘根据各种实施例的对来自用户设备102的各种源的内容进行示例性深度屏幕捕获的图。如图10A所示，在社交媒体平台中接收到通知时，用户体验通过深度屏幕捕获来增强，深度屏幕捕获执行深度屏幕理解。另外，深度屏幕捕获作为输入发送到屏幕内容的结构性解释，其生成分段屏幕树以理解屏幕。另外，在屏幕上提取用户的兴趣或关系，其中内容被提取并存储在情节记忆中。

如图10B所示，来自图10A的输入通过深度屏幕捕获来捕获，可以在当前屏幕上向用户建议所述深度屏幕捕获。将深度屏幕捕获发送到基于字段分类的屏幕内容的结构化解释。屏幕上的字段分类涉及查看启发法、关键字启发法和屏幕的TF-IDF，其然后被存储在成功的情节记忆中，所述成功的情节记忆稍后作为输入建议被提供给用户。

如图10A和图10B所示，设备的各种源中的内容输入管理包括分析设备上时常显示的一个或多个应用程序的内容；生成所分析内容的逻辑树结构；对于每个应用程序，检测并分类在当前正显示在设备上的应用程序中需要用户输入的一个或多个输入字段；从逻辑树结构自动获取待填写所检测的输入字段的候选内容；以及针对用户的输入将所获取的内容提供为推荐。

图11A、11B和11C是描绘根据各种实施例的用户设备102上的到用户的示例性输入建议的图。如图11A所示，例如从社交媒体平台对源屏幕进行深度屏幕捕获，结构化解释通过借助于识别兴趣并提取内容剖析屏幕上的不同内容来执行，存储于在当前屏幕上提供屏幕上的动作的记忆中。下一个屏幕可以是目的地屏幕，在目的地屏幕中可以建议来自源应用程序的内容。在目的地屏幕中，执行字段分类，字段分类对地址字段进行分类并且从先前的记忆获取输入建议(地址)。目的地屏幕可以是计程车预订或位置查找相关的应用程序。

如图所示，应用程序中的内容输入管理包括分析设备上时常显示的一个或多个屏幕的内容；生成所分析内容的逻辑树结构；对于每个应用程序(分段屏幕树)，检测并分类在当前正显示在设备上的应用程序中需要用户输入的一个或多个输入字段；(用于字段分类的基于屏幕的TF-IDF)从逻辑树结构自动获取待填写所检测的输入字段的候选内容；以及针对用户的输入将所获取的内容提供为推荐。

如图11B所示，提取关系以用于提供输入建议。深层屏幕捕获源屏幕并且通过剖析接收和发送给用户的通知来解释结构化输入。另外，基于屏幕的共同参考解析可以提取不同屏幕内容之间的关系并且基于内容提取来提供输入建议(内容)。如图11B所示，目的地屏幕可以接收来自前一屏幕的输入建议。

如图11C所示，兴趣可以基于用户的兴趣区域来从源屏幕提取并被提供给目的地屏幕。如图所示，深度屏幕从社交媒体平台捕获源屏幕，社交媒体平台通过剖析从源屏幕接收和发送的消息来执行结构化解释。基于屏幕的关系提取基于用户的兴趣来提取不同屏幕内容之间的关系。基于屏幕的兴趣摘要来提取用户的兴趣区域。

目的地屏幕可以是食品配送应用程序或涉及待配送的地点的任何其他应用程序。字段分类可以对来自前一屏幕的搜索字段进行分类，并且向目的地屏幕提供输入建议。

图12A、图12B、图12C和图12D示出根据各种实施例的基于屏幕上的所分析的内容的动作建议。如图所示，示例性图描绘了使用理解的分段屏幕树以及屏幕内容的结构化解释进行深度屏幕捕获的用户体验。实施例可以使用分段屏幕树通过接收源屏幕、检索内容捕获事件的原始转储(每个屏幕100个事件)、动态地准备分段屏幕树(使用100个事件)，基于屏幕类型或类别(例如：IM、浏览器、购物等)识别标识符并使所述标识符相关联，使用相关联标识符动态地遍历分段屏幕树并且提供屏幕内容的结构化解释来提供屏幕内容的结构化解释。

如图12A所示，在实施例中，可以获取、提取在任何社交媒体平台中进行会话的用户并且可以理解动作的上下文。由用户分类的字段可以包括部件名称、消息正文、消息时间、消息类型、会话标题和发送者详细信息。

如图12B所示，在其中用户在浏览器中执行搜索的实施例中，可以获取网站URL、文章标题、突出显示、时间和关键词。

如图12C所示，在其中用户使用媒体播放屏幕收听音乐的实施例中，可以解释媒体标题、喜欢/不喜欢、评级、频道、订户数量、语言信息、日期和时间。

如图12D所示，可以动态地建议动作，例如基于图12A和图12B的先前屏幕购买产品。图12D可以提供具有购物应用程序的屏幕，所述购物应用程序具有搜索字段内容或浏览产品信息。因此，可以通过对屏幕树进行分段来提供屏幕内容的结构化解释。

图13示出根据各种实施例的向用户提供推荐的关于基于屏幕的TF-IDF的示例性字段分类。如图13所示，提供使用深入屏幕理解和智能进行深度屏幕捕获的输入建议。例如，深度屏幕捕获涉及通过对字段(诸如OTP、地址、搜索内容)进行分类的字段分类；记录/个人信息，诸如名字、姓氏、昵称、手机号码、电子邮件、URL等；银行业务信息，诸如帐号、卡号(信用卡/借记卡)、银行名称、收款人姓名、IFSC、UPI ID；TBY，诸如旅行(巴士、航班、火车)、购物、预订(酒店)类别。

如图所示，字段分类包括明确的自动填写提示；视图启发法诸如视图提示、资源名称、文本、内容描述和网页视图；关键字启发法，诸如关键字DB、基于屏幕的TF-IDF和视图启发法，诸如父节点和兄弟节点、活动部件名称和屏幕标题。

如图所示，关于基于屏幕的TF-IDF的字段分类可以通过接收具有输入字段的源屏幕，基于输入字段从屏幕识别信息(例如，视图分级结构、提示、资源ID、内容描述、HTML属性、活动和部件名称、屏幕标题、父节点和兄弟节点等)，从屏幕信息检索标签，准备术语和字段列表，动态地准备稀疏‘基于屏幕的TF-IDF’(词频-逆文档频率：输入字段与标签之间的文档术语矩阵)，针对每个术语和字段迭代地使权重相关联并更新所述权重，并且根据基于屏幕的TF-IDF来对源屏幕上的字段进行分类来执行。

图14示出根据各种实施例的向用户提供的动作的示例性建议。如图所示，输入建议和连接是被同时执行。通知和文本选择屏幕可以具有动作，诸如调用Adam、创建事件。选择创建事件动作的用户可以使用屏幕内容和具有所提及位置的屏幕截图照片创建事件。稍后通过从前一个屏幕获取位置并且向用户提供填写选项来执行动作。因此，动作使用关系相互连接并且在用户设备102上执行输入建议。

图15A、图15B、图15C和图15D示出根据各种实施例的基于屏幕上的所分析的内容的输入建议和建议动作的示例性组合。如图所示，示例在各种动作中示出用于填写建议(图15A)、搜索建议(图15B)、共享建议(图15C)和提供表情符号建议(图15D)的输入建议。如图所示，在各种场景中同时执行输入建议和动作。

另外，图16A、图16B和图16C示出同时进行输入建议和连接动作的示例性推荐。如图所示，输入建议可以是关系提取(图16A)、通过响应建议的兴趣提取(图16B)和填写建议(16C)。

图17A示出根据各种实施例的其中用户设备提供连接动作的示例。基于现有方法，在于用户设备102的显示屏上接收到通知文本中存在的内容时，电子设备上目前仅示出/执行网页值机动作。现有方法仅在用户设备102上仅执行静态动作或预定义动作，并且不考虑用户的其他应用程序数据、用户行为和其他活动。

图17B、图17C和图17D示出根据各种实施例的通过考虑跨应用程序可用的数据来提供连接动作的示例。基于实施例，内容捕获数据收集器和剪贴板数据观察器从保存到第一应用程序(例如，旅行预订应用程序等)中的复制文本和数据提取待完成的测试(RT-CPR)信息和前往的城市。数据采集器从数据库读取应用程序数据，并且将应用程序数据以信息类型[出行]和实体[去商店]保存到平台中。动作通过合并来自跨应用程序的数据[旅行、城市旅行、待完成的测试、购物清单]来形成，这些数据在那个时间点是需要的，如图18所示。当电子设备的用户接收到航班通知和/或提醒以及来自航班服务提供商的航班状态时，电子设备理解读取的先前屏幕/剪贴板上复制的文本，这在中基于内置意图对旅行→将动作示出为预订预约是强制性的，所述内置意图为临床测试(RT-CPR)提供功能。电子设备通过理解来自用户在旅行之前所做的笔记的内容来显示“下订单”[亚马逊]的动作。所有动作通过合并来自跨应用程序的数据[旅行、城市旅行、待完成的测试、购物清单]来形成，这些数据在旅行的那个时间点是需要的。

图18和图19示出根据各种实施例的示例性电子设备基于可用数据来创建数据混搭模型的示例。数据转换器(参见图6)从不同数据源接收各种信息(例如，在旅行时需要的来自新闻应用程序/浏览器的PCR报告和在旅行时来自笔记应用程序的待办事项列表的信息)。基于从不同数据源接收到的信息，数据转换器通过识别来自不同数据源(例如，网页源、浏览器)的多种数据类型(例如，RT-PCR测试、购物清单)，确定数据类型之间的一种或多种关系，预测用户可能执行的一种或多种可能的动作作为确定关系的结果，并且向用户提供建议以采取一种或多种动作(例如，预定预约、旅行、下订单等)作为使用数据提取单元、上下文解析器单元和动作解析器单元进行预测的结果来提供数据混搭模型。

图20示出根据各种实施例的其中电子设备基于新数据来创建数据混搭模型的示例。用户设备102从数据源接收新数据。基于所提出的方法，方法对新数据执行上下文解析，针对新数据创建链接，预测链接的权重，对链接执行加权动态动作解析，并且向用户提供建议。例如，用户设备102从旅行预订应用程序接收航班预订作为新数据。基于所提出的方法，用户设备102将上下文确定为旅行并且根据基于屏幕的共同参考解析来在来自新闻应用程序的RT-PCR测试与来自笔记应用程序的购物清单之间创建链接。另外，用户设备102向用户建议动作(例如，预订、预约、下订单等)。

如图所示，链接创建针对给定输入制作详细信息，无论所述给定输入是否具有与之相关联的任何上下文以及任何用户可执行的详细信息。上下文解析负责将作为保存/新接收的输入文本的2个不同数据识别为相似种类的可执行信息。链接权重负责计算基于映射在2个不同数据之间的上下文可能的各种链接权重。

基于计算的权重的具有各种可能性的加权动态动作解析(WDAR)通过数据节点之间的上下文关联性映射到最后的建议。

图21示出根据各种实施例的其中电子设备通过考虑跨应用程序可用的数据来提供连接动作的示例。类似于以上图20的示例，用户设备102接收通知并识别实体和内容类(例如，<PNR：BMF1FQ-6E 6137，日期：2021/03/22 12:45–1300，值机链接：https://bit.ly/3jYdsCf，信息链接：https://bit.ly/2ZHzqI8，目的地：班加罗尔，始发地：海得拉巴>)。基于内容类，用户设备102使用先验知识解析器确定内容类型(例如，旅行、提醒)。基于内容类型，用户设备链接用户的各种活动(即，<屏幕活动：浏览器，剪贴板：RT-CPR，笔记-商务旅行>，<应用程序能力：(医学检测：Practo，购物：亚马逊出租车：Ola)>)。用户设备102基于链接生成来建议动作(即，<可能的动作：网页值机、预订预约、出租车预订、班加罗尔的天气、下订单>)，并且基于用户要求对订单进行优先级排序或更新订单。

图22A、图22B和图22C示出根据各种实施例的其中电子设备通过考虑跨应用程序可用的数据来提供连接动作(在应用程序中)的示例。用户设备102通过考虑跨应用程序可用的数据来提供连接动作(在应用程序中)。

图22A示出在用户设备102中接收到的婚礼邀请的媒体图像。基于所接收的媒体图像，在图22B中，当用户移动到日历应用程序时，将基于通过媒体图像在后台接收的数据提供创建事件的建议。当用户查看利用图像+上下文创建的媒体图像和事件时，图22C将建议用于导航和天气检查的动作。

图23示出根据各种实施例的其中电子设备102通过考虑跨应用程序可用的数据来提供连接动作的示例。类似于图22A、图22B和图22C所示的示例，用户设备102接收媒体图像并且识别实体和内容类(例如，<人名：克里斯托弗(Christopher)，日期：2023/08/26，地点林肯博物馆>)。基于内容类，用户设备102使用先验知识解析器确定内容类型(例如，事件创建)。基于内容类型，电子设备链接用户的各种活动(即，<屏幕活动：媒体、位置，><应用程序能力：(创建事件：日历，开始导航：地图出租车：Ola)>)。基于链接生成，用户设备102建议动作(即，<可能的动作：创建事件、开始导航、出租车预订、天气检查>)，并且基于用户要求对订单进行优先级排序或更新订单。

图24示出根据各种实施例的基于DNN的模型从所接收的输入提取实体的示例。基于DNN的模型包括预处理层、嵌入层和时间分布密集网络。

从所接收的输入提取实体的基于DNN的模型，即用于提取实体的DNN机器学习模型，即从给定输入提取实体的DNN模型。

图25示出根据各种实施例的其中基于RegEx的剖析器从所接收的输入提取实体的示例。分类模型接收输入并且基于所接收的输入来确定类别。在示例中，类别可以是旅游、购物、银行业务、提醒、预订等。分类模型使用ML模型或AI模型进行训练。

图26示出根据各种实施例的CNN模型。卷积神经网络包括嵌入层、卷积层、最大池化层、串接层和softmax层。嵌入层是用于使用密集向量表示来表示单词和文档的一类方法。嵌入层利用随机权重进行初始化，并且将学习训练数据集中所有单词的嵌入。卷积层接收嵌入层的输出并且馈送到最大池化层。

最大池化层执行池化操作，池化操作计算每个特征图的每个补丁中的最大值或最大的值。结果是下采样或池化特征图，其突出显示补丁中最当前的特征，而不是平均池化情况下特征的平均存在。串接层接受输入并且沿着指定维度串接它们。Softmax层执行将数字向量转换为概率向量的数学函数，其中每个值的概率与向量中每个值的相对比例成比例。

图27和图28示出根据各种实施例的其中电子设备从所接收的数据提供可执行建议的示例。用户设备102接收包括动作、实体、上下文和事件的数据，并且使用本体推断规则行为学习技术生成知识网格。本体推断规则行为学习技术确定整合来自不同数据源/系统的学习资源并且处理语义和结构冲突的语义映射规则。本体推断规则行为学习技术定义成支持对异构学习资源的语义搜索，所述异构学习资源是由基于规则的推断推导出来的。用户设备基于知识网格来向用户提供建议。

在示例中，用户设备102接收包括地址、电话号码和电子邮件ID的消息和图像，并且使用本体推断规则行为学习技术生成地址、电话号码和电子邮件ID的知识网格。基于知识网格，用户设备102向用户提供建议(例如，导航、保存联系人、发送消息或发送电子邮件)。

图29示出根据各种实施例的其中电子设备102基于内容中可用的实体来执行动作映射的示例。基于(以上所讨论的)建议，动作映射基于内容中可用的实体来执行。动作映射可以是例如但不限于“添加到日历”、“预定计程车”、“订餐”、“撰写电子邮件”等。

图30示出根据各种实施例的描绘推理引擎的操作的示例。在建议动作上点击之后的用户下一个动作用于使用推理引擎改善未来动作。推理引擎以两个阶段(即，学习阶段和推断阶段)进行训练。在学习阶段，控制器接收动作项，并且通过将应用程序动作与上下文融合来预处理动作项。预处理的动作项使用支持向量机(SVM)技术和用户行为漂移调整进行训练。贝叶斯模型基于用户行为漂移调整与用户动作之间的关系来处理所预处理的动作项。

在建议动作上点击之后的用户下一步动作将用于改善未来动作。基于与给定建议的用户交互，将利用参数(如用户动作消费(点击)、滑动清除、与当前上下文一起删除)学习用户行为，所述参数被馈送到贝叶斯模型中以学习行为。

当将类似的输入文本接收到设备中时，推理引擎将基于先前的历史和相应地做出的建议来建议提供动作是否将有用。

图31A、图31B、图32A和图32B示出根据各种实施例的其中电子设备通过考虑跨应用程序可用的数据来提供连接动作的示例。使用所提出的方法，可以基于来自不同应用程序的数据来在类似应用程序上示出连接动作。考虑其中用户设备(102)的用户在第一食品配送应用程序中订购食品的示例。在一定时间段内，将各种数据(例如，菜系名称、餐厅名称、应用程序类型等)存储在第一食品配送应用程序中。各种数据用于应用程序中的动作建议。基于所提出的方法，考虑来自第一食品配送应用程序的各种数据以及应用程序的类型，因此当用户设备102的用户启动类似应用程序(例如，第二食品配送应用程序)时，将向用户建议类似动作(例如、点菜等)。这改善了用户体验。

基于所提出的方法，将基于位置来示出动作建议。考虑其中用户设备102的用户在第一食品配送应用程序中订购食品的示例。在一定时间段内，将各种数据(例如，菜系名称、餐厅名称、应用程序类型等)存储在第一食品配送应用程序中。各种数据用于应用程序中的动作建议。另外，在消息发送应用程序中，朋友们讨论为“John：当你在海德拉巴(Hyderbad)时，不要忘记尝试天堂印度比尔亚尼(Biryani)菜；Joseph：当你去电影城时，把这些食品从那个地方给我带来”。来自第一食品配送应用程序的各种数据与应用程序的类型和来自消息发送应用程序的数据一起被考虑，因此当用户设备102的用户在指定位置(即，海德拉巴(Hyderbad)的电影城)启动类似应用程序(例如，第二食品配送应用程序)时，将向用户建议类似的动作(例如，天堂印度比尔亚尼(Biryani)菜)，这改善了用户体验。

图33A、图33B、图34A和图34B示出根据各种实施例的电子设备通过向连接设备传播动作来提供连接动作的示例。所提出的方法通过将动作传播到连接设备来提供连接动作。在示例中，当用户在旅行并到达机场时，可以将动作(即，示出扫描码)传播到智能手表，使得用户可以容易地扫描而无需拿出智能电话。在另一个示例中，用户预订电影票并到达剧院，可以将动作(即，示出扫描码)传播到智能手表，使得用户可以容易地扫描而无需拿出智能电话。

在示例中，当用户设备102的用户收到配送消息并且用户去取应示出PIN的包裹时。基于所提出的方法，内容/动作将被路由到智能手表，因为用户可能只随身携带了手表/而不是智能电话。

图35A、图35B、图36A、图36B和图36C示出根据各种实施例的电子设备通过考虑跨应用程序可用的数据来提供连接动作的示例。在示例中，Cowin站点开放以供第2波预订，并且在第1波之后下载PDF内容，使得基于所提出的方法剖析PDF内容和显示相关联的动作。因此，当用户设备102的用户访问同一个网站时，相关内容将被保存并且相关联的动作如“预定第2波”将被示出给用户。

基于对用户行为的理解，将通过合并用户设备102中的数据来向用户示出动作。考虑示例，用户下载特定类型的文件，并且在下载之后，用户建议在一定时间段内使用各种应用程序打开文件/共享文件。因此，在下载并分析传入的文件内容之后，向用户建议相应的动作(例如，读取文件或共享文件)。

图37A和图37B示出根据各种实施例的其中电子设备通过内容剖析提供连接动作的示例。所提出的方法通过内容剖析提供连接动作。在示例中，从接收到消息，并且针对帐单信息剖析内容，并且建议通过/>进行支付，因为对于用户而言这是常规的支付方式。但是，在示例中，消息是从HDFC/>接收的。针对帐单信息剖析内容，并且建议通过/>进行支付，因为对于用户而言这是常规的支付方式。

图38示出根据各种实施例的用户设备102基于深度屏幕捕获来提供输入建议的示例。

如图所示，图38描绘向用户提供推荐的深度屏幕捕获。通过提供基于兴趣和关系提取的输入建议，这可以通过提取屏幕上的关系和兴趣来提供输入建议。这也可以通过解析屏幕内的共同参考并提取关系(基于屏幕的共同参考解析，在结构化解释之后)来提供屏幕上的关系和兴趣提取。根据屏幕内容的结构化解释，提取屏幕上的兴趣区域。基于屏幕的所识别的兴趣区域来提取屏幕上的内容。

因此，可以针对设备上的AI方法提供深度屏幕捕获，设备上的AI方法通过合并用户在设备框架数据中接收的内容来提供连接动作：所述内容如(通知、屏幕数据、剪贴板、所选择文本)、核心应用程序数据(消息、笔记、媒体、联系人等)、应用程序活动(应用程序动作/使用)、设备数据、附近的设备和通过数据混搭的用户上下文。

在通过用户行为模式/推理、用户在消费建议/根据建议行动之后进行的下一组事情提供连接动作时存在动态性。在构造建议(用户行为推理和类似应用程序数据)时，已考虑类似的应用程序数据/使用。智能机制可以识别从多个源(如消息、图像、文件、通知)接收的重复数据，并且针对连接操作构造单个条目(多模式数据与单个连接动作的类似性)。

因此，使用深度屏幕捕获提供输入建议的方法和系统，其中一个屏幕理解框架包括：屏幕理解、屏幕上的字段分类、屏幕智能(兴趣和关系)；输入建议，诸如填写建议、搜索建议、响应建议、共享建议、表情符号建议。

在实施例中，系统和方法使用分段屏幕树提供屏幕内容的结构化解释。屏幕理解：深入理解各种屏幕类型的屏幕内容(对话屏幕理解、媒体屏幕理解等)。

在实施例中，系统和方法用于具有基于屏幕的TF-IDF的字段分类。字段分类通过理解基于屏幕内容的TF-IDF提取，通过使用N阵列深度优先遍历映射视图来进行，字段分类作为系统部件用来实现系统范围的用户案例。

提取屏幕上内容之间的关系并且提供输入建议的系统和方法。解析屏幕内的共同参考并且提取关系(在结构化解释之后基于屏幕的共同参考解析)。

提取屏幕上的兴趣内容并且提供输入建议的系统和方法。根据屏幕内容的结构化解释提取屏幕上的兴趣区域，并且基于屏幕所识别的兴趣区域来提取屏幕上的内容。

图39示出根据各种实施例的电子设备102在应用程序之间提供填写建议选项的示例。如图39所示，用户设备102通过使用深度屏幕捕获理解屏幕来在源应用程序与目的地应用程序之间提供填写建议选项。在示例中，用户在第一消息应用程序中接收到具有收款人银行详细信息的消息(例如，联系人信息：地址、电子邮件、姓名；银行信息：银行名称、收款人、帐号；以及登录信息：用户名和密码)。基于深度屏幕捕获，基于用户在第二应用程序上点击的字段来向第二应用程序(例如，支付应用程序等)智能地建议来自消息应用程序的详细信息(例如，联系人信息：地址、电子邮件、姓名；银行信息：银行名称、收款人、帐号；登录信息：用户名和密码)，这导致改善用户体验。

图40和图41示出根据各种实施例的其中用户设备102在应用程序之间提供搜索建议选项的示例。如图40和图41所示，用户设备102通过使用深度屏幕捕获理解屏幕来在源应用程序与目的地应用程序之间提供搜索建议选项。在示例中，用户设备102的用户无法在第一电影流应用程序上查找节目。基于所提出的方法，使用关键字，方法在用户设备102中运行的不同电影流应用程序中搜索电影。

类似地，用户设备102的用户针对购买产品的价格检查多个应用程序。类似地，用户设备102的用户检查在不同食物应用程序上吃的更好选项。这将改善用户体验以示出更好的结果。

如图41所示，用户设备102的用户在第一应用程序(即，应用程序A)上搜索关键字并且切换到第二应用程序(即，应用程序B)以搜索相同关键字。基于所提出的方法，用户设备102将所搜索的内容和应用程序类别存储在存储器中。在接下来的时间，用户单击第三应用程序上的输入字段，第三应用程序确定所搜索的内容和应用程序类别相同，则第三应用程序向用户提供输入建议。

图42和图43示出根据各种实施例的其中用户设备102在应用程序之间提供响应建议选项的示例。如图42和图43所示，用户设备102通过使用深度屏幕捕获理解屏幕来在源应用程序与目的地应用程序之间提供响应建议选项。所提出的方法提供相关的不间断回复以及个性化建议。在实施例中，键盘中的智能回复需要理解整个屏幕。如图43所示，所提出的方法接收消息并且对消息中的意图进行分类。另外，方法检测响应并且提取消息中的实体。另外，方法检索内容并且生成响应。

图44示出根据各种实施例的其中电子设备102在应用程序之间提供共享建议选项的示例。如图44所示，用户设备102通过使用深度屏幕捕获理解屏幕来在源应用程序与目的地应用程序之间提供共享建议选项。在实施例中，所需信息或内容被共享而无需在应用程序之间切换。在示例中，用户设备102的用户在聊天应用程序中浏览一些给朋友的礼物并且从聊天应用程序切换到浏览器应用程序以搜索礼物。最近查看的建议在会话中从浏览器链接并切换回聊天应用程序。所有浏览过的礼物都会在聊天应用程序中进行推荐。

图45示出根据各种实施例的其中用户设备102执行关系提取操作的示例。用户设备102收集用户输入并且根据浮点特征向量中的向量表示所述用户输入，并且通过Bi-LSTM在向前方向和向后方向两者上传递上述向量中的向量以理解会话文本的域/意图。另外，用户设备102处理输入以生成先行语列表并将域输出馈送到评分模块，所述评分模块从之前填充的先行语列表返回最可能的先行语。另外，用户设备102使用响应生成模块生成查询并从内容数据库(DB)获取所需信息以示出所需的建议。

图46示出根据各种实施例的用户设备102执行兴趣提取操作的示例。用户设备102修正用户会话文本，并且在用户会话文本中执行实体提取和字段分类。基于实体提取和字段分类，用户设备102理解优先级并且基于优先级来提供响应。在示例中，用户设备102理解屏幕上的兴趣并且在下一个屏幕/应用程序中提供预测。在另一个示例中，用户设备102理解用户需要对哪个消息作出响应并且理解消息的优先级。另外，用户设备102基于优先化消息来提供响应。

特定实施例的前述描述将充分地揭示本文实施例的一般性质，使得其他人可以通过应用当前知识来在不脱离一般概念的情况下容易地修改且/或改编此类特定实施例以适应各种应用，并且因此，此类改编和修改应当并且希望被理解为属于所公开的实施例的等同物的意义和范围内。应当理解，本文采用的措辞或术语是为了描述的目的而不是为了限制。因此，尽管已经根据至少一个实施例描述了本文的实施例，但本领域的技术人员将认识到，本文的实施例可以在如本文描述的实施例的精神和范围内进行修改来实践。

Claims

1.一种提供至少一个推荐的方法，所述方法包括：

由用户设备从所述用户设备上的多个源中收集至少一个数据；

由所述用户设备将所收集的数据馈送到数据混搭模型；

由所述用户设备使用所述数据混搭模型识别所述数据的多个类型；

由所述用户设备使用所述数据混搭模型确定所述数据的多个类型之间的一种或多种关系；

由所述用户设备使用所述数据混搭模型将要由用户执行的一个或多个可能的推荐预测为所确定的关系的结果；以及

由所述用户设备根据所述预测向所述用户提供建议，以寻求所述一个或多个推荐。

2.一种提供至少一个推荐的方法，所述方法包括：

由用户设备分析从显示在所述用户设备的屏幕上的多个源中捕获的至少一个内容；

由所述用户设备基于所分析的至少一个内容来生成至少一个逻辑树结构；

由所述用户设备检测显示在所述用户设备上的所述多个源中需要至少一个用户输入的至少一个输入字段，其中，基于至少一个输入类型对所述至少一个输入字段进行分类；

由所述用户设备从所述逻辑树结构中获取至少一个候选内容，其中，所述至少一个候选内容基于所检测的至少一个输入字段；以及

由所述用户设备向所述用户设备的用户推荐所获取的至少一个候选内容。

3.根据权利要求2所述的方法，其中，通过分析从显示在所述用户设备上的多个源中捕获的至少一个内容来生成所述至少一个推荐，其中，基于由所述用户设备的用户执行的至少一个动作来建议所述至少一个推荐，其中，通过使用数据混搭模型确定所述数据的类型之间的一种或多种关系来生成所述至少一个逻辑树结构，其中，基于使用所述数据混搭模型所确定的关系的结果来检测显示在所述用户设备上的所述多个源中需要至少一个用户输入的至少一个输入字段。

4.根据权利要求3所述的方法，其中，通过使用先前生成的所述用户的至少一个动作、以及分析在所述用户设备上捕获的至少一个内容，建议所述至少一个推荐。

5.根据权利要求2所述的方法，其中，基于所述至少一个内容来生成所述至少一个逻辑树结构包括：接收所述用户设备的至少一个屏幕，检索至少一个内容捕获事件，动态地创建分段屏幕树，基于屏幕类型或类别来进行识别，使用相关联的标识符动态地遍历所述分段屏幕树，以及提供屏幕内容的结构性解释。

6.根据权利要求2所述的方法，其中，通过从所述用户设备的至少一个屏幕的至少一个输入类型中识别信息、检索标签、以及准备至少一个术语和至少一个字段列表，对所述至少一个输入字段进行分类。

7.根据权利要求6所述的方法，其中，基于动态地准备屏幕字段矩阵、以及关联和更新至少一个术语和至少一个字段列表的权重，对所述至少一个输入字段进行分类。

8.根据权利要求7所述的方法，其中，基于所述屏幕字段矩阵对至少一个屏幕上的至少一个输入字段进行分类。

9.根据权利要求2所述的方法，其中，通过基于在所述用户设备的至少一个屏幕上提取关系和至少一个兴趣，推荐所述至少一个候选内容。

10.根据权利要求9所述的方法，其中，基于解析至少一个屏幕内的共同参考、提取与所述用户设备的至少一个屏幕的所述结构性解释相关联的至少一个屏幕的兴趣区域，在至少一个屏幕上提取所述关系和所述至少一个兴趣。

11.根据权利要求9所述的方法，其中，基于识别所述用户设备的至少一个屏幕的至少一个兴趣区域，在所述用户设备的至少一个屏幕上提取所述关系。

12.一种提供至少一个推荐的用户设备，所述用户设备包括：

存储器；

控制器；

硬件处理器，其中，所述硬件处理器被配置为：

分析从显示在所述用户设备的屏幕上的多个源中捕获的至少一个内容；

基于所分析的至少一个内容来生成至少一个逻辑树结构；

在显示在所述用户设备上的所述多个源中检测需要至少一个用户输入的至少一个输入字段，其中，基于至少一个输入类型对所述至少一个输入字段进行分类；

从至少一个逻辑树结构中获取至少一个候选内容，其中，所述至少一个候选内容基于所检测的至少一个输入字段；以及

向所述用户设备的用户推荐所获取的至少一个候选内容。

13.根据权利要求12所述的用户设备，其中，基于分析从显示在所述用户设备上的多个源中捕获的至少一个内容来生成所述至少一个推荐，其中，基于由所述用户执行的至少一个动作来建议所述至少一个推荐。

14.根据权利要求13所述的用户设备，其中，通过利用先前生成的由所述用户执行的至少一个动作、以及分析在所述用户设备上捕获的至少一个内容，建议所述至少一个推荐。

15.根据权利要求12所述的用户设备，其中，基于所述至少一个内容来生成至少一个逻辑树结构包括：接收所述用户设备的至少一个屏幕，检索至少一个内容捕获事件，动态地创建分段屏幕树，基于屏幕类型或类别进行识别，使用相关联的标识符动态地遍历所述分段屏幕树，以及提供屏幕内容的结构性解释。