CN117608738A - 浏览器交互方法、装置、设备、可读存储介质及产品 - Google Patents

浏览器交互方法、装置、设备、可读存储介质及产品 Download PDF

Info

Publication number
CN117608738A
CN117608738A CN202311735435.6A CN202311735435A CN117608738A CN 117608738 A CN117608738 A CN 117608738A CN 202311735435 A CN202311735435 A CN 202311735435A CN 117608738 A CN117608738 A CN 117608738A
Authority
CN
China
Prior art keywords
interaction
preset
instruction set
instruction
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311735435.6A
Other languages
English (en)
Inventor
李�浩
毛烨阳
柳金杜
王海威
王保卫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu China Co Ltd
Original Assignee
Baidu China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu China Co Ltd filed Critical Baidu China Co Ltd
Priority to CN202311735435.6A priority Critical patent/CN117608738A/zh
Publication of CN117608738A publication Critical patent/CN117608738A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Remote Sensing (AREA)
  • Artificial Intelligence (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Bioethics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本公开提供了浏览器交互方法、装置、设备、可读存储介质及产品,涉及人工智能领域,尤其涉及NLP领域。具体实现方案为:获取用户输入的自然语言,确定所述自然语言对应的交互意图,其中,所述自然语言用于控制所述浏览器执行目标操作;在预设的交互指令库中获取与所述交互意图相匹配的预设指令集,所述预设指令集中包括至少一个交互指令以及各交互指令对应的交互网页以及交互元素;通过预设的大语言模型对所述预设指令集中的至少一个交互指令进行泛化操作,获得泛化后的目标指令集;基于所述目标指令集与所述浏览器进行交互操作,以使所述浏览器执行所述目标操作。从而能够提高用户与浏览器交互的效率,减少交互过程中的大量重复性操作。

Description

浏览器交互方法、装置、设备、可读存储介质及产品
技术领域
本公开涉及人工智能中的NLP,尤其涉及一种浏览器交互方法、装置、设备、可读存储介质及产品。
背景技术
在日常生活中,用户可以在浏览器中执行相应操作来完成表单填写、新闻搜集、文档整理汇总、跨网页多步浏览等。但是,在与浏览器交互的过程中往往存在大量重复性的操作。这些重复性操作将会占用用户大量的时间,降低了效率。
因此,如何提高用户与浏览器交互的效率,减少重复性操作成为了亟待解决的技术问题。
发明内容
本公开提供了一种用于提高与浏览器的交互效率,减少重复性操作的浏览器交互方法、装置、设备、可读存储介质及产品。
根据本公开的第一方面,提供了一种浏览器交互方法,包括:
获取用户输入的自然语言,确定所述自然语言对应的交互意图,其中,所述自然语言用于控制所述浏览器执行目标操作;
在预设的交互指令库中获取与所述交互意图相匹配的预设指令集,所述预设指令集中包括至少一个交互指令以及各交互指令对应的交互网页以及交互元素;
通过预设的大语言模型对所述预设指令集中的至少一个交互指令进行泛化操作,获得泛化后的目标指令集;
基于所述目标指令集与所述浏览器进行交互操作,以使所述浏览器执行所述目标操作。
根据本公开的第二方面,提供了一种浏览器交互装置,包括:
获取模块,用于获取用户输入的自然语言,确定所述自然语言对应的交互意图,其中,所述自然语言用于控制所述浏览器执行目标操作;
处理模块,用于在预设的交互指令库中获取与所述交互意图相匹配的预设指令集,所述预设指令集中包括至少一个交互指令以及各交互指令对应的交互网页以及交互元素;
泛化模块,用于通过预设的大语言模型对所述预设指令集中的至少一个交互指令进行泛化操作,获得泛化后的目标指令集;
交互模块,用于基于所述目标指令集与所述浏览器进行交互操作,以使所述浏览器执行所述目标操作。
根据本公开的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述的方法。
根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行第一方面所述的方法。
根据本公开的第五方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的方法。
根据本公开的技术能够提高用户与浏览器交互的效率,减少重复性操作。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1为本公开实施例所基于的系统架构图;
图2为本公开实施例提供的浏览器交互方法的流程示意图;
图3为本公开又一实施例提供的浏览器交互方法的流程示意图;
图4为本公开又一实施例提供的浏览器交互方法的流程示意图;
图5为本公开又一实施例提供的浏览器交互方法的流程示意图;
图6为本公开实施例提供的浏览器交互示意图;
图7为本公开又一实施例提供的浏览器交互方法的流程示意图;
图8为本公开实施例提供的显示界面示意图;
图9为本公开实施例提供的浏览器交互装置的结构示意图;
图10为本公开实施例提供的电子设备的结构示意图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本公开提供一种浏览器交互方法、装置、设备、可读存储介质及产品,应用于人工智能领域中的NLP,以达到提高用户与浏览器交互的效率,减少重复性操作的效果。
需要说明的是,本实施例中的人头模型并不是针对某一特定用户的人头模型,并不能反映出某一特定用户的个人信息。需要说明的是,本实施例中的二维人脸图像来自于公开数据集。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
在日常生活中,人们可以在浏览器中执行相应操作来完成表单填写、新闻搜集、文档整理汇总、跨网页多步浏览等。在一些应用场景中,用户的这些操作可能是重复性的操作。这些重复性操作将会占用用户大量的时间,降低了效率。因此需要对这些重复性操作进行自动化处理。
相关技术中,使用以下方案来实现操作的重复处理:
(1)使用浏览器插件/扩展录制和播放用户在览器中进行的操作。
(2)录制操作用户操作,将录制的操作转换为脚本。这些脚本可以在需要的时候运行,以模拟用户操作。
(3)录制用户操作分析网页的DOM结构确定用户的操作,当播放这些操作时,它们会查找相同的DOM元素并模拟相同的操作。
(4)用户可以设置定时任务,使浏览器在特定时间执行某些操作。
(5)使用固定指令集实现常见的操作。
(6)简单的模型和机器学习。可以使用简单的人工智能模型算法,例如决策树或逻辑回归,根据用户的习惯预测可能要执行的下一步操作。
(7)云存储和同步。用户可以将他们的操作或宏指令存储在云中,并在多台设备上同步。
(8)手动编程和API调用。可以使用应用程序接口和脚本语言,直接编写自动化任务。
这些现有技术的核心是基于确定性的录制和播放操作,依赖于固定的操作序列、确定的网页结构和预先定义的脚本。缺点如下:
(1)仅支持预设的、固定化的操作流程,当遇到非标准的或新的操作需求时,这些工具可能无法应对。(2)智能化程度有限,无法理解复杂的网页内容或上下文,因此在面对复杂的任务时效果有限。(3)自动填写和保存功能可能导致用户信息的安全隐患。(4)大多数浏览器的自动化工具采用“一刀切”的策略,缺乏根据个体用户习惯和偏好的个性化服务。(5)交互界面不足,在执行自动化任务时,用户往往得不到清晰的反馈或提示,可能导致用户在某些情况下感到迷惑或迷失。(6)缺乏共享和协助功能。(8)技术门槛相对较高。(9)随着网站和web应用程序的更新和变化,预先录制的操作流程可能会失效或定期更新。
在解决上述技术问题的过程中,发明人通过研究发现,大语言模型(LLM)为预先使用大量文本数据训练的深度学习模型,其可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务,如文本分类、问答、对话等,是通向人工智能的一条重要途径。为了使得用户录制的操作流程适用于更多的应用场景以及不同的交互网页,可以基于大语言模型针对自然语言的处理能力,对用户预先录制的操作流程进行泛化处理,以基于用户的实际意图实现对其中的目标参数、待选选项等内容进行调整,获得泛化后的指令集。或者,可以在获取到用户意图之后,通过大语言模型基于用户意图以及对网页内容的理解,逐步地生成指令集。
通过预先构建多个指令集,从而在获取到用户输入的用于控制浏览器执行目标操作的自然语言之后,可以识别自然语言对应的交互意图,基于交互意图在预先构建的多个指令集中获取与交互意图相匹配的预设指令集。为了使得基于指令集的交互操作更加贴合当前的交互意图以及最新的网页内容,还可以基于大语言模型对该预设指令集进行泛化处理,得到目标指令集。基于该目标指令集在浏览器中进行交互操作,以实现该目标操作。
为使读者更深刻地理解本公开的实现原理,现结合以下图1-图10对本公开实施例进行进一步细化。
图1为本公开实施例所基于的系统架构图,如图1所示,本公开所基于的系统架构至少包括终端设备11以及服务器12。其中,终端设备11中可以设置有浏览器交互装置,该浏览器交互装置课采用C/C++、Java、Shell或Python等语言编写。终端设备11则可例如手机、台式电脑、平板电脑等。该服务器12中可以预先设置有大语言模型。
基于上述系统架构,用户可以在终端设备11上输入自然语言,从而浏览器交互装置可以识别自然语言对应的交互意图,基于交互意图在预先构建的多个指令集中获取与交互意图相匹配的预设指令集。进一步地,为了使得基于指令集的交互操作更加贴合当前的交互意图以及最新的网页内容,还可以将预设指令集发送至服务器12,以使服务器12基于预设的大语言模型对该预设指令集进行泛化处理,得到目标指令集。将目标指令集反馈至终端设备11,从而终端设备11可以基于该目标指令集在浏览器中进行交互操作,以实现该目标操作。
图2为本公开实施例提供的浏览器交互方法的流程示意图,如图2所示,该方法包括:
步骤201、获取用户输入的自然语言,确定所述自然语言对应的交互意图,其中,所述自然语言用于控制所述浏览器执行目标操作。
在本实施例中,为了实现目标操作,用户可以输入自然语言。其中,该目标操作包括但不限于表单填写、新闻搜集、文档整理汇总、跨网页多步浏览、购物等操作。
可选地,可以预先设置虚拟形象以及对话框。用户可以在对话框内以对话的方式与虚拟形象进行信息交互。从而用户可以在对话框中输入该自然语言。例如,该自然语言可以为购买书籍A。
进一步地,为了准确地基于该自然语言控制浏览器执行目标操作,可以确定自然语言对应的交互意图。其中,可以采用任意一种方式实现对交互意图的分析,本公开对此不做限制。
例如,可以通过文本分析的方式确定自然语言对应的交互意图,或者,可以将自然语言输入至预设的意图识别模型中,以确定自然语言对应的交互意图等。
步骤202、在预设的交互指令库中获取与所述交互意图相匹配的预设指令集,所述预设指令集中包括至少一个交互指令以及各交互指令对应的交互网页以及交互元素。
在本实施方式中,可以预先构建交互指令库,在该交互指令库中可以包括多个预设指令集,每一预设指令集中包括至少一个交互指令以及各交互指令对应的交互网页以及交互元素。其中,交互元素包括但不限于交互操作对应的交互网页,待触发的交互网页中的交互控件等。
该交互指令库中的预设指令集可以为用户根据实际需求进行录制的,也可以为通过预设的大语言模型对用户录制的操作流程进行泛化操作获得的,或者,可以为大语言模型基于对用户意图以及交互网页的理解自动生成的,本公开对此不做限制。
进一步地,在获取到交互意图之后,可以在预设的交互指令库中获取与所述交互意图相匹配的预设指令集。
可选地,交互指令库中可以包括多个预设指令集以及各预设指令集对应的预设意图。在获取到交互意图之后,可以在交互指令库中确定与交互意图匹配度最高的预设意图,并获取该预设意图对应的预设指令集。或者,可以通过预设的大语言模型识别与交互意图最匹配的预设指令集。本公开对预设指令集的获取方式不做限定。
步骤203、通过预设的大语言模型对所述预设指令集中的至少一个交互指令进行泛化操作,获得泛化后的目标指令集。
在本实施方式中,该预设指令集中包括多个交互指令,部分交互指令中可能存在预设交互参数。例如,该预设指令集可以为用于请假的指令集,其中可以包括请假理由、请假时间等预设交互参数。或者,该预设指令集可以为购买书籍的指令集,其中可以包括书籍名称、收货地址等预设交互参数。
或者,由于交互网页的更新,构建预设指令集时的交互网页与调用该预设指令集时的交互网页可能有所不同,例如显示元素的显示位置可能有所不同等。
因此,为了使得与浏览器之间的交互操作更加贴合交互意图,在获取到预设指令集之后,可以通过预设的大语言模型对预设指令集中的至少一个交互指令进行泛化操作,获得泛化后的目标指令集。
其中,在泛化过程中,可以通过预设的大语言模型对交互意图以及交互网页的理解对预设指令集中的预设交互参数进行调整。例如,可以根据当前时间对请假时间进行调整,根据用户意图中的请假原因对预设指令集中的请假原因进行调整等。
步骤204、基于所述目标指令集与所述浏览器进行交互操作,以使所述浏览器执行所述目标操作。
在本实施方式中,在得到泛化后的与交互意图以及交互网页相匹配的目标指令集之后,可以基于目标指令集与浏览器进行交互操作,以使浏览器执行目标操作。
本公开实施例提供的浏览器交互方法,通过获取与用户输入的自然语言相匹配的预设指令集,并通过预设的大语言模型对预设指令集中的至少一个交互指令进行泛化操作,得到目标指令集,从而能够使得目标指令集中的交互指令更加贴合用户的交互意图以及与当前的交互网页相匹配。进而在基于目标指令集与浏览器进行交互操作时,能够基于用户输入的自然语言自动地实现该目标操作,提高了用户与浏览器交互的效率,避免了过多的重复操作,提升用户体验。
图3为本公开又一实施例提供的浏览器交互方法的流程示意图,在上述任一实施例的基础上,所述交互指令库中包括多个预设指令集。如图3所示,步骤202之前,还包括:
步骤301、获取所述用户触发的指令集建立请求,所述指令集建立请求中包括所述用户预先确定的用于构建指令集的原始数据。
步骤302、基于所述大语言模型对所述原始数据进行数据处理,获得所述预设指令集。
在本实施例中,交互指令库中包括多个预设指令集。为了实现对交互指令集的构建,可以用户触发的指令集建立请求,其中,指令集建立请求中包括用户预先确定的用于构建指令集的原始数据。该原始数据包括但不限于用户意图、用户预先录制的交互流程以及用户意图等。
进一步地,在获取到原始数据之后,为了使得构建的预设指令集更加贴合实际需求,还可以基于大语言模型对原始数据进行数据处理,获得预设指令集。
本公开实施例提供的浏览器交互方法,通过获取用户触发的指令集建立请求,通过预设的大语言模型对用户预先确定的用于构建指令集的原始数据进行数据处理,从而能够生成更准确且更加贴合用户意图的预设指令集。为后续的浏览器交互提供了基础。
可选地,在上述任一实施例的基础上,所述原始数据包括用户意图。步骤302包括:
基于所述用户意图在预设的多个导航网页中确定与所述用户意图相匹配的目标网页。
识别所述目标网页中至少一个显示元素对应的语义特征。
将所述至少一个显示元素对应的语义特征以及所述用户意图输入至所述大语言模型,获得所述大语言模型生成的输出内容。
基于所述大语言模型生成的输出内容依次确定至少一个交互指令,获得所述预设指令集。
在本实施例中,原始数据可以为用户输入的用户意图。可以基于大语言模型对用户意图以及交互网页内容的理解,自动地构建预设指令集。
可选地,可以预先设置有多个导航网页。在获取到用户意图之后,可以在预设的多个导航网页中确定与用户意图相匹配的目标网页。
进一步地,可以识别目标网页中至少一个显示元素对应的语义特征。其中,在打开目标网页之后,可以对目标网页的显示元素进行清洗,对于具备语义化标签的内容作为清洗之后的至少一个显示元素。对于每一个显示元素遍历一个父节点、子节点及兄弟节点,将这些节点进行拼接,得到该显示元素的语义特征。
进一步地,可以将至少一个显示元素对应的语义特征以及用户意图输入至大语言模型,获得大语言模型生成的输出内容。基于大语言模型生成的输出内容依次确定至少一个交互指令,获得预设指令集。在将至少一个显示元素对应的语义特征以及用户意图输入至大语言模型之后,大语言模型可以基于对用户意图以及至少一个显示元素的分析,确定当前的交互指令。例如,该交互指令包括但不限于在搜索框内输入搜索词、点击某一控件、选择某一搜索结果、输入信息等。
进一步地,在上述任一实施例的基础上,所述输出内容包括目标显示元素。所述基于所述大语言模型生成的输出内容依次确定至少一个交互指令,获得所述预设指令集,包括:
基于所述目标显示元素的属性信息确定当前的交互指令。
根据所述交互指令与所述浏览器进行交互操作,获得当前的交互结果。
若所述交互结果与所述用户意图相匹配,则基于所述当前的交互指令构建所述预设指令集。
若所述交互结果与所述用户意图不匹配,则根据所述交互结果对所述目标网页进行更新,将更新后的网页确定为当前的目标网页,返回执行所述识别所述目标网页中至少一个显示元素对应的语义特征的步骤,直至当前的交互结果与所述用户意图相匹配,基于历史生成的至少一个交互指令构建所述预设指令集。
在本实施例中,输出内容包括目标显示元素。其中,该目标显示元素可以为输入框,或者可以为可触发控件等。因此,在获取到输出内容之后,可以基于目标显示元素的属性信息确定当前的交互指令。例如,若该目标显示元素为输入框,则交互指令可以为在输入框中输入预设内容。该目标显示元素为可触发控件,则该交互指令可以为对可触发控件进行触发操作。
进一步地,在确定与目标显示元素对应的交互指令之后,可以根据交互指令与浏览器进行交互操作,获得当前的交互结果。确定该交互结果是否与用户意图相匹配。例如,用户意图可以为购买书籍A,在基于目标显示元素对应的交互指令完成交互操作之后,可以确定当前是否实现对书籍A的购买。
若交互结果与用户意图相匹配,则表征当前已基于用户意图完成与浏览器的交互操作,可以基于当前的交互指令构建预设指令集。反之,则表征当前的交互操作并未结束,还需要大语言模型继续分析下一交互指令。此时,可以根据交互结果对目标网页进行更新,将更新后的网页确定为当前的目标网页,返回执行识别目标网页中至少一个显示元素对应的语义特征的步骤,直至当前的交互结果与用户意图相匹配,基于历史生成的至少一个交互指令构建预设指令集。
本公开实施例提供的浏览器交互方法,通过基于大模型对用户意图以及交互网页的理解,依次生成至少一个交互指令,构建预设指令集,从而能够基于用户输入的用户意图快速、准确地生成预设指令集,简化了预设指令集的生成流程,提高了预设指令集的准确性。
进一步地,在上述任一实施例的基础上,所述将所述至少一个显示元素对应的语义特征以及所述用户意图输入至所述大语言模型,包括:
分别确定各显示元素与所述用户意图之间的相关指数。
根据所述相关指数以及预设的排序方式对所述至少一个显示元素进行排序操作。
将顺序满足预设条件的至少一个显示元素对应的语义特征以及所述用户意图输入至所述大语言模型。
在本实施例中,由于目标网页中的显示元素数量较多,降低大语言模型的计算量,提高预设指令集构建的效率,在确定各显示元素对应的语义特征之后,可以选择部分满足预设条件的显示元素输入至大语言模型中进行数据分析。
可选地,可以分别确定各显示元素与用户意图之间的相关指数。其中,可以采用任意一种相关度计算方法实现对显示元素与用户意图之间的相关度的计算,本公开对此不做限制。根据相关指数以及预设的排序方式对至少一个显示元素进行排序操作。将顺序满足预设条件的至少一个显示元素对应的语义特征以及用户意图输入至大语言模型。
举例来说,可以分别计算各显示元素与用户意图之间的相关度。按照相关度由高到低的顺序对多个显示元素进行排序。将排名超过预设排名阈值的显示元素对应的语义特征以及用户意图输入至大语言模型。
本公开实施例提供的浏览器交互方法,通过在确定至少一个显示元素的语义特征之后,基于显示元素与用户意图之间的相关指数对显示元素进行排序,将顺序满足预设条件的至少一个显示元素对应的语义特征以及所述用户意图输入至所述大语言模型,从而能够降低大语言模型的计算量,提高预设指令集构建的效率。
可选地,在上述任一实施例的基础上,所述原始数据包括所述用户录制的交互流程以及用户意图。步骤302包括:
将所述用户录制的交互流程以及用户意图输入至所述大语言模型中,获得所述大语言模型输出的泛化后的至少一个交互指令。
将所述泛化后的至少一个交互指令确定为所述预设指令集。
在本实施例中,原始数据包括用户录制的交互流程以及用户意图。在获取到原始数据之后,可以直接将用户录制的交互流程以及用户意图确定为预设指令集。
或者,为了使得预设指令集适用于更多的应用场景,可以将用户录制的交互流程以及用户意图输入至大语言模型中,获得大语言模型输出的泛化后的至少一个交互指令。以使大语言模型对交互流程中的部分预设交互参数进行调整。将泛化后的至少一个交互指令确定为预设指令集。
本公开实施例提供的浏览器交互方法,通过大语言模型对用户预先录制的交互流程进行泛化操作,得到预设指令集,从而能够使得用户录制的交互流程更加贴合当前的交互网页,提高预设指令集的精准性。
图4为本公开又一实施例提供的浏览器交互方法的流程示意图,在上述任一实施例的基础上,如图4所示,步骤203包括:
步骤401、将所述预设指令集以及所述交互意图输入至所述大语言模型中。
步骤402、通过所述大语言模型基于所述交互意图以及交互网页的更新内容对所述至少一个交互指令中的预设交互参数进行调整,获得泛化后的目标指令集。
在本实施例中,由于交互网页的更新,构建预设指令集时的交互网页与调用该预设指令集时的交互网页可能有所不同,例如显示元素的显示位置可能有所不同等。并且,预设指令集中包括多个交互指令,部分交互指令中可能存在预设交互参数。
因此,在获取到与交互意图相匹配的预设指令集之后,可以将预设指令集以及交互意图输入至大语言模型中。通过大语言模型基于交互意图以及交互网页的更新内容对至少一个交互指令中的预设交互参数进行调整,获得泛化后的目标指令集。
本公开实施例提供的浏览器交互方法,通过在获取到预设指令集之后,通过大语言模型基于交互意图以及交互网页的更新内容对至少一个交互指令中的预设交互参数进行调整,从而使得目标指令集中的交互指令更加贴合实际的交互指令以及当前的交互网页,提高浏览器交互的准确性。
图5为本公开又一实施例提供的浏览器交互方法的流程示意图,在上述任一实施例的基础上,如图5所示,步骤204包括:
步骤501、在所述浏览器中依次执行所述目标指令集中的至少一个目标指令。
步骤502、通过预设的虚拟形象以预设的展示方式展示当前执行的目标指令以及交互结果。
在本实施例中,用户可以预先设置虚拟形象,该虚拟形象可以为动漫形象、动物形象、二维形象、三维形象等,用户可以根据实际需求实现对虚拟形象的设置,本公开对此不做限制。为了实现与浏览器之间的用户,用户可以以对话的方式与虚拟形象进行信息交互。例如,用户可以以对话的方式向虚拟形象发送自然语言,在书籍网站购买书籍A。
进一步地,在对预设指令集进行泛化处理,得到目标指令集之后,可以在浏览器中依次执行目标指令集中的至少一个目标指令。在执行的过程中,为了使得用户更直观地对当前的执行情况进行了解,可以通过预设的虚拟形象以预设的展示方式展示当前执行的目标指令以及交互结果。举例来说,虚拟形象可以以对话的方式在预设的对话框里显示,当前执行的目标指令为在输入框内输入搜索词,搜索词为“书籍A”。
图6为本公开实施例提供的浏览器交互示意图,如图6所示,用户可以预先设置虚拟形象61,用户可以在终端设备中通过与虚拟形象61进行互动输入自然语言。虚拟形象61可以执行目标指令集的过程中,与对话的形式现实当前执行的指令62,以使得用户更直观地确定当前的交互进度。例如,虚拟形象61可以以对话的形式告知用户当前正在搜索框内输入搜索词。
本公开实施例提供的浏览器交互方法,通过预先设置虚拟形象,并控制虚拟形象展示当前执行的目标指令以及交互结果,从而用户能够实时地对当前的交互情况进行了解,提升用户体验。
进一步地,在上述任一实施例的基础上,步骤502之后,还包括:
获取所述用户通过所述虚拟形象输入的更新指令。
通过所述更新指令替换当前执行的目标指令与所述浏览器进行交互操作。
在本实施例中,在基于目标指令集与浏览器进行交互的过程中,用户还可以根据实际需求对目标指令集中的至少一个交互指令进行调整,以使得交互操作更加贴合用户的个性化需求。
可选地,用户可以通过对话的方式与虚拟形象进行信息交互,生成更新指令。例如,虚拟形象可以以对话的方式告知用户当前的目标指令为在输入框内输入搜索词,搜索词为“书籍A”。用户可以根据实际需求对当前的目标指令进行更新。例如,用户可以以对话的方式告知虚拟形象,将“书籍A”修改为“书籍B”。
进一步地,在获取到用户输入的更新指令之后,可以通过更新指令替换当前执行的目标指令与所述浏览器进行交互操作。承接上例来说,在获取到用户输入的更新指令之后,可以基于该更新指令在输入框中输入搜索词“书籍B”。
本公开实施例提供的浏览器交互方法,通过基于用户触发的更新指令对当前执行的目标指令进行替换,从而能够使得与浏览器之间的交互操作更加贴合用户的个性化需求。
进一步地,在上述任一实施例的基础上,步骤203之后,还包括:
响应于所述用户触发的发布操作,将所述目标指令集发布至预设的共享渠道,以使其他用户在所述共享渠道内对所述目标指令集进行查看以及调用。
在本实施例中,在基于用户的自然语言得到目标指令集之后,用户还可以根据实际需求将该目标指令集发布至预设的共享渠道,以便其他用户基于该目标指令集与浏览器进行交互,实现目标操作。
其中,该共享渠道可以为共享的指令集数据库,其中存储有大量的预设指令集。用户可以在该共享渠道内对其他用户发布的目标指令集进行查看。并可以对感兴趣的目标指令集进行下载使用。避免了用户手动进行预设指令集的生成。
本公开实施例提供的浏览器交互方法,通过在得到目标指令集之后,发布该目标指令集,从而其他用户可以基于该目标指令集进行自动地浏览器交互操作。
进一步地,在上述任一实施例的基础上,所述方法还包括:
获取所述用户历史在所述浏览器内触发的至少一个操作指令。
在所述共享渠道内确定与所述至少一个操作指令相匹配的共享指令集。
向所述用户的终端设备发送所述共享指令集。
在本实施例中,用户可以在浏览器中触发至少一个操作指令以实现某一操作。例如,用户可以在搜索引擎的输入框中输入某一搜索词,点击预设的搜索控件。跳转至搜索结果页面,在结果页面内选择目标搜索结果进行查看。
为了简化用户的交互流程,可以在共享渠道中获取与用户触发的至少一个操作指令相匹配的共享指令集。向用户的终端设备发送共享指令集。从而用户后续要执行该操作时,可以通过该共享指令集自动地与浏览器进行交互操作。
本公开实施例提供的浏览器交互方法,通过基于用户历史触发的至少一个操作指令向用户推荐共享指令集,从而能够避免用户手动与浏览器进行交互操作,避免过多重复的交互流程,提升用户体验。
图7为本公开又一实施例提供的浏览器交互方法的流程示意图,在上述任一实施例的基础上,如图7所示,步骤204之后,还包括:
步骤701、确定交互过程中至少一个交互网页的安全级别。
步骤702、若任一交互网页的安全级别满足预设的加密条件,则对所述交互网页内的交互数据进行加密操作。
在本实施例中,在基于目标指令集与浏览器进行交互的过程中,可能涉及到多个交互网页。其中,不同的交互网页可能具有不同的功能,因此不同的交互网页对应有不同的安全级别。例如,部分网页可以显示多个候选商品,部分网页可以显示有用户选择的目标商品的详情信息,部分网页可以用于输入密码、用户信息等内容。
进一步地,为了保证用户在与浏览器交互过程中的信息安全,可以确定交互过程中至少一个交互网页的安全级别。针对每一交互网页,若该交互网页的安全级别满足预设的加密条件,则对交互网页内的交互数据进行加密操作。其中,该加密条件可以为安全级别大于预设的级别阈值。
举例来说,用户可以在交互网页中进行密码的输入,在确定该交互网页的安全级别高于预设的级别阈值时,可以采用预设符号对用户输入的密码进行替换,以保证用户的信息安全。
图8为本公开实施例提供的显示界面示意图,如图8所示,当前交互网页81可以为密码输入页面,当确定该交互网页81的安全级别满足预设的加密条件时,可以对用户在输入框82内输入的密码进行加密处理,在输入密码对应的位置显示预设符号83。
本公开实施例提供的浏览器交互方法,通过在交互网页的安全级别满足预设的加密条件时,对交互网页内的交互数据进行加密操作,从而能够提高在浏览器交互过程中的数据安全性。
图9为本公开实施例提供的浏览器交互装置的结构示意图,如图9所示,该装置包括:获取模块91、处理模块92、泛化模块93以及交互模块94,其中,获取模块91,用于获取用户输入的自然语言,确定所述自然语言对应的交互意图,其中,所述自然语言用于控制所述浏览器执行目标操作。处理模块92,用于在预设的交互指令库中获取与所述交互意图相匹配的预设指令集,所述预设指令集中包括至少一个交互指令以及各交互指令对应的交互网页以及交互元素。泛化模块93,用于通过预设的大语言模型对所述预设指令集中的至少一个交互指令进行泛化操作,获得泛化后的目标指令集。交互模块94,用于基于所述目标指令集与所述浏览器进行交互操作,以使所述浏览器执行所述目标操作。
进一步地,在上述任一实施例的基础上,所述交互指令库中包括多个预设指令集。所述装置还包括:获取模块,用于获取所述用户触发的指令集建立请求,所述指令集建立请求中包括所述用户预先确定的用于构建指令集的原始数据。处理模块,用于基于所述大语言模型对所述原始数据进行数据处理,获得所述预设指令集。
进一步地,在上述任一实施例的基础上,所述原始数据包括用户意图。所述处理模块包括:确定单元,用于基于所述用户意图在预设的多个导航网页中确定与所述用户意图相匹配的目标网页。识别单元,用于识别所述目标网页中至少一个显示元素对应的语义特征。输入单元,用于将所述至少一个显示元素对应的语义特征以及所述用户意图输入至所述大语言模型,获得所述大语言模型生成的输出内容。处理单元,用于基于所述大语言模型生成的输出内容依次确定至少一个交互指令,获得所述预设指令集。
进一步地,在上述任一实施例的基础上,所述输入单元包括:确定子单元,用于分别确定各显示元素与所述用户意图之间的相关指数。排序子单元,用于根据所述相关指数以及预设的排序方式对所述至少一个显示元素进行排序操作。输入子单元,用于将顺序满足预设条件的至少一个显示元素对应的语义特征以及所述用户意图输入至所述大语言模型。
进一步地,在上述任一实施例的基础上,所述输出内容包括目标显示元素。所述处理单元包括:确定子单元,用于基于所述目标显示元素的属性信息确定当前的交互指令。交互子单元,用于根据所述交互指令与所述浏览器进行交互操作,获得当前的交互结果。第一构建子单元,用于若所述交互结果与所述用户意图相匹配,则基于所述当前的交互指令构建所述预设指令集。第二构建子单元,用于若所述交互结果与所述用户意图不匹配,则根据所述交互结果对所述目标网页进行更新,将更新后的网页确定为当前的目标网页,返回执行所述识别所述目标网页中至少一个显示元素对应的语义特征的步骤,直至当前的交互结果与所述用户意图相匹配,基于历史生成的至少一个交互指令构建所述预设指令集。
进一步地,在上述任一实施例的基础上,所述原始数据包括所述用户录制的交互流程以及用户意图。所述处理模块包括:输入单元,用于将所述用户录制的交互流程以及用户意图输入至所述大语言模型中,获得所述大语言模型输出的泛化后的至少一个交互指令。确定单元,用于将所述泛化后的至少一个交互指令确定为所述预设指令集。
进一步地,在上述任一实施例的基础上,所述泛化模块包括:输入单元,用于将所述预设指令集以及所述交互意图输入至所述大语言模型中。调整单元,用于通过所述大语言模型基于所述交互意图以及交互网页的更新内容对所述至少一个交互指令中的预设交互参数进行调整,获得泛化后的目标指令集。
进一步地,在上述任一实施例的基础上,所述交互模块包括:执行单元,用于在所述浏览器中依次执行所述目标指令集中的至少一个目标指令。展示单元,用于通过预设的虚拟形象以预设的展示方式展示当前执行的目标指令以及交互结果。
进一步地,在上述任一实施例的基础上,交互模块还包括:获取单元,用于获取所述用户通过所述虚拟形象输入的更新指令。替换单元,用于通过所述更新指令替换当前执行的目标指令与所述浏览器进行交互操作。
进一步地,在上述任一实施例的基础上,所述装置还包括:发布模块,用于响应于所述用户触发的发布操作,将所述目标指令集发布至预设的共享渠道,以使其他用户在所述共享渠道内对所述目标指令集进行查看以及调用。
进一步地,在上述任一实施例的基础上,所述装置还包括:获取模块,用于获取所述用户历史在所述浏览器内触发的至少一个操作指令。确定模块,用于在所述共享渠道内确定与所述至少一个操作指令相匹配的共享指令集。发送模块,用于向所述用户的终端设备发送所述共享指令集。
进一步地,在上述任一实施例的基础上,所述装置还包括:确定模块,用于确定交互过程中至少一个交互网页的安全级别。加密模块,用于若任一交互网页的安全级别满足预设的加密条件,则对所述交互网页内的交互数据进行加密操作。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
根据本公开的实施例,本公开还提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一实施例所述的方法。
根据本公开的实施例,本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如上述任一实施例所述的方法。
根据本公开的实施例,本公开还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
图10为本公开实施例提供的电子设备的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图10所示,设备1000包括计算单元1001,其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序,来执行各种适当的动作和处理。在RAM 1003中,还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
设备1000中的多个部件连接至I/O接口1005,包括:输入单元1006,例如键盘、鼠标等;输出单元1007,例如各种类型的显示器、扬声器等;存储单元1008,例如磁盘、光盘等;以及通信单元1009,例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理,例如浏览器交互方法。例如,在一些实施例中,浏览器交互方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时,可以执行上文描述的浏览器交互方法的一个或多个步骤。备选地,在其他实施例中,计算单元1001可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行浏览器交互方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (27)

1.一种浏览器交互方法,包括:
获取用户输入的自然语言,确定所述自然语言对应的交互意图,其中,所述自然语言用于控制所述浏览器执行目标操作;
在预设的交互指令库中获取与所述交互意图相匹配的预设指令集,所述预设指令集中包括至少一个交互指令以及各交互指令对应的交互网页以及交互元素;
通过预设的大语言模型对所述预设指令集中的至少一个交互指令进行泛化操作,获得泛化后的目标指令集;
基于所述目标指令集与所述浏览器进行交互操作,以使所述浏览器执行所述目标操作。
2.根据权利要求1所述的方法,所述交互指令库中包括多个预设指令集;所述在预设的交互指令库中获取与所述交互意图相匹配的预设指令集之前,还包括:
获取所述用户触发的指令集建立请求,所述指令集建立请求中包括所述用户预先确定的用于构建指令集的原始数据;
基于所述大语言模型对所述原始数据进行数据处理,获得所述预设指令集。
3.根据权利要求2所述的方法,所述原始数据包括用户意图;
所述基于所述大语言模型对所述原始数据进行数据处理,获得所述预设指令集,包括:
基于所述用户意图在预设的多个导航网页中确定与所述用户意图相匹配的目标网页;
识别所述目标网页中至少一个显示元素对应的语义特征;
将所述至少一个显示元素对应的语义特征以及所述用户意图输入至所述大语言模型,获得所述大语言模型生成的输出内容;
基于所述大语言模型生成的输出内容依次确定至少一个交互指令,获得所述预设指令集。
4.根据权利要求3所述的方法,所述将所述至少一个显示元素对应的语义特征以及所述用户意图输入至所述大语言模型,包括:
分别确定各显示元素与所述用户意图之间的相关指数;
根据所述相关指数以及预设的排序方式对所述至少一个显示元素进行排序操作;
将顺序满足预设条件的至少一个显示元素对应的语义特征以及所述用户意图输入至所述大语言模型。
5.根据权利要求3所述的方法,所述输出内容包括目标显示元素;所述基于所述大语言模型生成的输出内容依次确定至少一个交互指令,获得所述预设指令集,包括:
基于所述目标显示元素的属性信息确定当前的交互指令;
根据所述交互指令与所述浏览器进行交互操作,获得当前的交互结果;
若所述交互结果与所述用户意图相匹配,则基于所述当前的交互指令构建所述预设指令集;
若所述交互结果与所述用户意图不匹配,则根据所述交互结果对所述目标网页进行更新,将更新后的网页确定为当前的目标网页,返回执行所述识别所述目标网页中至少一个显示元素对应的语义特征的步骤,直至当前的交互结果与所述用户意图相匹配,基于历史生成的至少一个交互指令构建所述预设指令集。
6.根据权利要求2所述的方法,所述原始数据包括所述用户录制的交互流程以及用户意图;所述基于所述大语言模型对所述原始数据进行数据处理,获得所述预设指令集,包括:
将所述用户录制的交互流程以及用户意图输入至所述大语言模型中,获得所述大语言模型输出的泛化后的至少一个交互指令;
将所述泛化后的至少一个交互指令确定为所述预设指令集。
7.根据权利要求1所述的方法,所述通过预设的大语言模型对所述预设指令集中的至少一个交互指令进行泛化操作,获得泛化后的目标指令集,包括:
将所述预设指令集以及所述交互意图输入至所述大语言模型中;
通过所述大语言模型基于所述交互意图以及交互网页的更新内容对所述至少一个交互指令中的预设交互参数进行调整,获得泛化后的目标指令集。
8.根据权利要求1-7任一项所述的方法,所述基于所述目标指令集与所述浏览器进行交互操作,包括:
在所述浏览器中依次执行所述目标指令集中的至少一个目标指令;
通过预设的虚拟形象以预设的展示方式展示当前执行的目标指令以及交互结果。
9.根据权利要求8所述的方法,所述通过预设的虚拟形象展示当前执行的目标指令以及交互结果之后,还包括:
获取所述用户通过所述虚拟形象输入的更新指令;
通过所述更新指令替换当前执行的目标指令与所述浏览器进行交互操作。
10.根据权利要求1-7任一项所述的方法,所述通过预设的大语言模型对所述预设指令集中的至少一个交互指令进行泛化操作,获得泛化后的目标指令集之后,还包括:
响应于所述用户触发的发布操作,将所述目标指令集发布至预设的共享渠道,以使其他用户在所述共享渠道内对所述目标指令集进行查看以及调用。
11.根据权利要求10所述的方法,所述方法还包括:
获取所述用户历史在所述浏览器内触发的至少一个操作指令;
在所述共享渠道内确定与所述至少一个操作指令相匹配的共享指令集;
向所述用户的终端设备发送所述共享指令集。
12.根据权利要求1-7任一项所述的方法,所述基于所述目标指令集与所述浏览器进行交互操作之后,还包括:
确定交互过程中至少一个交互网页的安全级别;
若任一交互网页的安全级别满足预设的加密条件,则对所述交互网页内的交互数据进行加密操作。
13.一种浏览器交互装置,包括:
获取模块,用于获取用户输入的自然语言,确定所述自然语言对应的交互意图,其中,所述自然语言用于控制所述浏览器执行目标操作;
处理模块,用于在预设的交互指令库中获取与所述交互意图相匹配的预设指令集,所述预设指令集中包括至少一个交互指令以及各交互指令对应的交互网页以及交互元素;
泛化模块,用于通过预设的大语言模型对所述预设指令集中的至少一个交互指令进行泛化操作,获得泛化后的目标指令集;
交互模块,用于基于所述目标指令集与所述浏览器进行交互操作,以使所述浏览器执行所述目标操作。
14.根据权利要求13所述的装置,所述交互指令库中包括多个预设指令集;所述装置还包括:
获取模块,用于获取所述用户触发的指令集建立请求,所述指令集建立请求中包括所述用户预先确定的用于构建指令集的原始数据;
处理模块,用于基于所述大语言模型对所述原始数据进行数据处理,获得所述预设指令集。
15.根据权利要求14所述的装置,所述原始数据包括用户意图;
所述处理模块包括:
确定单元,用于基于所述用户意图在预设的多个导航网页中确定与所述用户意图相匹配的目标网页;
识别单元,用于识别所述目标网页中至少一个显示元素对应的语义特征;
输入单元,用于将所述至少一个显示元素对应的语义特征以及所述用户意图输入至所述大语言模型,获得所述大语言模型生成的输出内容;
处理单元,用于基于所述大语言模型生成的输出内容依次确定至少一个交互指令,获得所述预设指令集。
16.根据权利要求15所述的装置,所述输入单元包括:
确定子单元,用于分别确定各显示元素与所述用户意图之间的相关指数;
排序子单元,用于根据所述相关指数以及预设的排序方式对所述至少一个显示元素进行排序操作;
输入子单元,用于将顺序满足预设条件的至少一个显示元素对应的语义特征以及所述用户意图输入至所述大语言模型。
17.根据权利要求15所述的装置,所述输出内容包括目标显示元素;所述处理单元包括:
确定子单元,用于基于所述目标显示元素的属性信息确定当前的交互指令;
交互子单元,用于根据所述交互指令与所述浏览器进行交互操作,获得当前的交互结果;
第一构建子单元,用于若所述交互结果与所述用户意图相匹配,则基于所述当前的交互指令构建所述预设指令集;
第二构建子单元,用于若所述交互结果与所述用户意图不匹配,则根据所述交互结果对所述目标网页进行更新,将更新后的网页确定为当前的目标网页,返回执行所述识别所述目标网页中至少一个显示元素对应的语义特征的步骤,直至当前的交互结果与所述用户意图相匹配,基于历史生成的至少一个交互指令构建所述预设指令集。
18.根据权利要求14所述的装置,所述原始数据包括所述用户录制的交互流程以及用户意图;所述处理模块包括:
输入单元,用于将所述用户录制的交互流程以及用户意图输入至所述大语言模型中,获得所述大语言模型输出的泛化后的至少一个交互指令;
确定单元,用于将所述泛化后的至少一个交互指令确定为所述预设指令集。
19.根据权利要求13所述的装置,所述泛化模块包括:
输入单元,用于将所述预设指令集以及所述交互意图输入至所述大语言模型中;
调整单元,用于通过所述大语言模型基于所述交互意图以及交互网页的更新内容对所述至少一个交互指令中的预设交互参数进行调整,获得泛化后的目标指令集。
20.根据权利要求13-19任一项所述的装置,所述交互模块包括:
执行单元,用于在所述浏览器中依次执行所述目标指令集中的至少一个目标指令;
展示单元,用于通过预设的虚拟形象以预设的展示方式展示当前执行的目标指令以及交互结果。
21.根据权利要求20所述的装置,交互模块还包括:
获取单元,用于获取所述用户通过所述虚拟形象输入的更新指令;
替换单元,用于通过所述更新指令替换当前执行的目标指令与所述浏览器进行交互操作。
22.根据权利要求13-19任一项所述的装置,所述装置还包括:
发布模块,用于响应于所述用户触发的发布操作,将所述目标指令集发布至预设的共享渠道,以使其他用户在所述共享渠道内对所述目标指令集进行查看以及调用。
23.根据权利要求22所述的装置,所述装置还包括:
获取模块,用于获取所述用户历史在所述浏览器内触发的至少一个操作指令;
确定模块,用于在所述共享渠道内确定与所述至少一个操作指令相匹配的共享指令集;
发送模块,用于向所述用户的终端设备发送所述共享指令集。
24.根据权利要求13-19任一项所述的装置,所述装置还包括:
确定模块,用于确定交互过程中至少一个交互网页的安全级别;
加密模块,用于若任一交互网页的安全级别满足预设的加密条件,则对所述交互网页内的交互数据进行加密操作。
25.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-12中任一项所述的方法。
26.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-12中任一项所述的方法。
27.一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现权利要求1-12中任一项所述方法的步骤。
CN202311735435.6A 2023-12-15 2023-12-15 浏览器交互方法、装置、设备、可读存储介质及产品 Pending CN117608738A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311735435.6A CN117608738A (zh) 2023-12-15 2023-12-15 浏览器交互方法、装置、设备、可读存储介质及产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311735435.6A CN117608738A (zh) 2023-12-15 2023-12-15 浏览器交互方法、装置、设备、可读存储介质及产品

Publications (1)

Publication Number Publication Date
CN117608738A true CN117608738A (zh) 2024-02-27

Family

ID=89944398

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311735435.6A Pending CN117608738A (zh) 2023-12-15 2023-12-15 浏览器交互方法、装置、设备、可读存储介质及产品

Country Status (1)

Country Link
CN (1) CN117608738A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118114742A (zh) * 2024-03-19 2024-05-31 北京智谱华章科技有限公司 一种基于大语言模型的网页导航智能体的训练方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118114742A (zh) * 2024-03-19 2024-05-31 北京智谱华章科技有限公司 一种基于大语言模型的网页导航智能体的训练方法

Similar Documents

Publication Publication Date Title
JP7283067B2 (ja) 通信プラットフォームにおける割り込み会話のデタングル化システムと方法、非構造化メッセージを解析する方法、プログラム、及びコンピュータ装置
CN113656582B (zh) 神经网络模型的训练方法、图像检索方法、设备和介质
CN114595686B (zh) 知识抽取方法、知识抽取模型的训练方法及装置
CN116501960B (zh) 内容检索方法、装置、设备及介质
CN114036398A (zh) 内容推荐和排序模型训练方法、装置、设备以及存储介质
CN117608738A (zh) 浏览器交互方法、装置、设备、可读存储介质及产品
CN115879469B (zh) 文本数据处理方法、模型训练方法、装置及介质
CN112836072A (zh) 信息展示方法及装置、电子设备和介质
CN113190695A (zh) 多媒体数据搜索方法及装置、计算机设备和介质
CN116521841A (zh) 用于生成回复信息的方法、装置、设备及介质
CN114443989B (zh) 排序方法、排序模型的训练方法、装置、电子设备及介质
CN113655895A (zh) 应用于输入法的信息推荐方法、装置及电子设备
EP3552119A1 (en) Query disambiguation by means of disambiguating dialog questions
CN114880498B (zh) 事件信息展示方法及装置、设备和介质
CN115269989B (zh) 对象推荐方法、装置、电子设备和存储介质
CN116450944A (zh) 基于推荐模型的资源推荐方法、装置、电子设备和介质
CN116049370A (zh) 信息查询方法和信息生成模型的训练方法、装置
CN113641933B (zh) 异常网页识别方法、异常站点识别方法及装置
CN114186147A (zh) 数据处理方法、装置、电子设备和存储介质
CN113312554A (zh) 用于评价推荐系统的方法及装置、电子设备和介质
CN113139093A (zh) 视频搜索方法及装置、计算机设备和介质
CN114492456B (zh) 文本生成方法、模型的训练方法、装置、电子设备及介质
CN112560462B (zh) 事件抽取服务的生成方法、装置、服务器以及介质
CN115809364B (zh) 对象推荐方法和模型训练方法
CN115562496B (zh) Xr设备及基于xr设备的字符输入方法和字符修改方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination