CN117079651B - 一种基于大规模语言模型的语音交叉实时增强现实方法 - Google Patents

一种基于大规模语言模型的语音交叉实时增强现实方法 Download PDF

Info

Publication number
CN117079651B
CN117079651B CN202311291667.7A CN202311291667A CN117079651B CN 117079651 B CN117079651 B CN 117079651B CN 202311291667 A CN202311291667 A CN 202311291667A CN 117079651 B CN117079651 B CN 117079651B
Authority
CN
China
Prior art keywords
model
target
asset
application program
language model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311291667.7A
Other languages
English (en)
Other versions
CN117079651A (zh
Inventor
周鹏远
丁宇辰
廖勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202311291667.7A priority Critical patent/CN117079651B/zh
Publication of CN117079651A publication Critical patent/CN117079651A/zh
Application granted granted Critical
Publication of CN117079651B publication Critical patent/CN117079651B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明提供了一种基于大规模语言模型的语音交叉实时增强现实方法。该方法包括:调用预训练的多语言语音文字转换模型将语音指令转换成原始字符指令;将原始字符指令经由大规模语言模型进行实体名称的抽取操作;根据用户需求对可定制的选择框进行处理;将辅助实体放置的提示模板经由大规模语言模型进行关键位置信息的整合,得到目标位置填充词;利用面向生成可执行增强现实脚本的提示词模板进行预处理;将预处理结果发送到大规模语言模型中进行推理,将得到的可执行增强现实脚本指令返回到交互应用程序;利用交互应用程序执行可执行增强现实脚本指令,将所得到的目标实体名称的模型资产在交互应用程序完中进行处理和显示增强现实结果。

Description

一种基于大规模语言模型的语音交叉实时增强现实方法
技术领域
本发明涉及增强现实技术领域,特别涉及一种基于大规模语言模型的语音交叉实时增强现实方法和系统、电子设备以及存储介质。
背景技术
大规模语言模型(Large Language Model, LLM)通常指的是采用了Transformer编码器-解码器架构的大规模预训练语言模型,它结合位置编码和自注意力机制,以捕捉输入序列的结构依赖性和上下文。近日来,以ChatGPT为代表的大规模语言模型在多个领域的基准数据集上取得了最先进的性能表现,而且在生成流畅且上下文相关的回复方面表现出色,使其成为各种聊天和语音应用的理想选择。
然而,基于传统方法的增强现实(Augmented Reality, AR)系统存在以下缺点:缺乏适应不同场景需求和有效满足用户个性化需求的能力,因为开发适合不同场景的增强现实内容常常需要大量的人工辅助和生产成本,无法快速地迁移场景和模型资产;硬件的限制也会降低用户的参与体验度,因为专业的增强现实设备大多都是昂贵的头显或者是增强现实眼镜,而普通用户通常并没有兴趣去单独购买这些设备;现阶段增强现实系统的内容处理方法是基于手势的,无论是操作还是交互逻辑都比较复杂,无法通过语音指令对增强现实内容进行持续处理。上述问题都限制了增强现实产品的推广和发展。
发明内容
鉴于上述问题,本发明提供了一种基于大规模语言模型的语音交叉实时增强现实方法,以期至少能够解决上述问题之一。
根据本发明的第一个方面,提供了一种基于大规模语言模型的语音交叉实时增强现实方法,包括:
利用交互应用程序调用预训练的多语言语音文字转换模型,将用户通过移动通信终端发出语音指令转换成原始字符指令,其中,交互应用程序内嵌在移动通信终端中;
构建面向目标实体抽取的提示模板用于输入原始字符指令,并将原始字符指令经由大规模语言模型进行实体名称的抽取操作,得到语音指令中所包括的目标实体名称;
利用交互应用程序调用平面检测功能在移动通信终端中显示可定制的选择框,并根据用户需求对可定制的选择框进行处理,得到辅助实体放置的提示模板;
将辅助实体放置的提示模板经由大规模语言模型进行关键位置信息的整合,得到目标平面瞄点的长、宽、面积和中心点法向量,进而构成目标位置填充词;
利用交互应用程序将原始字符指令、目标实体名称以及目标位置填充词输入到面向生成可执行增强现实脚本的提示词模板进行预处理,得到预处理结果;
将预处理结果发送到大规模语言模型中进行推理,并将得到的可执行增强现实脚本指令返回到交互应用程序;
利用交互应用程序执行可执行增强现实脚本指令,将所得到的目标实体名称的模型资产在交互应用程序中完成调度、绑定与渲染,得到并显示增强现实结果。
根据本发明的实施例,上述基于大规模语言模型的语音交叉实时增强现实方法还包括:
根据目标实体名称在移动通信终端进行本地近似语义的向量检索,得到向量检索结果;
在向量检索结果是目标实体名称命中移动通信终端中的本地模型资产的情况下,加载命中的本地模型资产,并将命中的本地模型资产绑定到3D场景根节点进行显示或绑定到调用辅助实体放置的提示模板所得到的目标节点位置上进行显示;
在向量检索结果是目标实体名称未命中移动通信终端中的本地模型资产的情况下,利用交互应用程序与云端服务器建立TCP连接,向云端服务器请求与目标实体名称相对应的模型资产,将云端服务器返回来的模型资产进行解压和加载,并将解码和加载后的模型资产绑定到3D场景根节点进行显示或绑定到调用辅助实体放置的提示模板所得到的目标节点位置上进行显示。
根据本发明的实施例,上述基于大规模语言模型的语音交叉实时增强现实方法还包括:
在云端服务器没有与目标实体名称相对应的模型资产的情况下,通过生成式人工智能技术生成与目标实体名称相对应的模型资产。
根据本发明的实施例,上述通过生成式人工智能技术生成与目标实体名称相对应的模型资产包括:
利用自然语言处理技术对语音指令进行解析处理,得到搜索条件,并根据搜索条件,利用交互应用程序进行语义搜索,得到与目标实体名称最接近的3D模型资产;
根据预设的比较条件,利用交互应用程序对3D模型资产进行评估并进行模型特征差距提炼,得到3D模型资产与语音指令所反映出的用户需求之间的模型特征差距;
利用预设的模型编辑算法对将模型特征差距转化为节点编辑树,并利用交互应用程序通过对节点编辑树的编辑实现对3D模型资产的属性信息进行修改,得到重塑后的3D模型资产;
利用交互应用程序将重塑后的3D模型资产与语音指令所反映出的用户需求进行语义关联,并将语义关联处理后的3D资产模型返回给用户。
根据本发明的实施例,上述多语言语音文字转换模型包括采用Transformer序列到序列架构进行构建。
根据本发明的实施例,上述目标位置填充词包括大规模语言模型根据目标平面锚点的位置设置生成目标实体名称的位置矩阵、大规模语言模型根据目标平面中心点法向量生成目标实体名称的法线向量、大规模语言模型根据目标平面面积设置目标实体名称的缩放因子。
根据本发明的实施例,上述目标位置填充词还包括大规模语言模型在用户所处的场景中是脚本代码生成器、大规模语言模型只能生成包裹在匿名函数中的代码、大规模语言模型不能定义任何新的函数、大规模语言模型定义所有需要用到的变量和常量,并在上下文引用时,保持所定义的变量和常量的名称一致以及符合编程语言规则的函数和数据。
根据本发明的实施例,上述符合变成语言规则的函数包括用于创建模型实体的函数、用于放置平面的函数、目标平面属性函数以及用于获得地面基平面的函数。
根据本发明第二个方面,提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行基于大规模语言模型的语音交叉实时增强现实方法。
根据本发明第三个方面,提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行基于大规模语言模型的语音交叉实时增强现实方法。
本发明提供的上述基于大规模语言模型的语音交叉实时增强现实方法通过利用大规模语言模型的强大生成能力和上下文理解能力,使增强现实应用能够根据不同场景的需求进行灵活的适应和个性化定制。用户可以通过语音指令与系统进行可持续交互,实时创建不同的三维增强现实内容,并根据个人需求进行定制和编辑,进而提高了场景适用性以及满足了用户个性化需求;同时在通过语音指令实现增强现实内容的持续处理,简化用户的操作流程,提供更直观、便捷的交互方式。用户可以通过语音指令快速创建、修改和交互增强现实模型,提升用户体验和参与度,解决了传统增强现实系统中的操作逻辑通常较为复杂,需要依赖手势或特定设备进行操作等诸多问题。
附图说明
图1是根据本发明实施例的基于大规模语言模型的语音交叉实时增强现实方法的流程图;
图2是根据本发明实施例的通过生成式人工智能技术生成与目标实体名称相对应的模型资产的流程图;
图3是根据本发明另一实施例的基于大规模语言模型的语音交叉实时增强现实方法的架构示意图;
图4是根据本发明另一实施例的基于大规模语言模型的语音交叉实时增强现实方法的流程示意图;
图5示意性示出了根据本发明实施例的适于实现基于大规模语言模型的语音交叉实时增强现实方法的电子设备的方框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
在本发明所公开的技术方案,所涉及的用户数据的获取得到了相关当事方的授权,并在相关当事方的许可下,对上述数据进行处理、应用和存储,相关过程符合法律法规的规定,采取了必要和可靠的保密措施,符合公序良俗的要求。
针对基于传统方法的增强现实方法所存在的诸多问题,本发明提供一种基于大规模语言模型的实时增强现实内容处理方法以及与方法配套的装置、电子设备、计算机可读存储介质及计算机程序产品。本发明利用搭载单目RGB摄像头的移动终端设备捕捉环境中的图像信息,并通过多语言预训练模型将用户的语音指令转换为文本,系统从大规模语言模型获取相应的增强现实脚本,并通过增强现实后端引擎实现脚本的处理和渲染,从而实现基于语音的增强现实内容处理。与传统方法相比,本发明无需使用深度摄像头等专业增强现实设备,减少了硬件要求和成本。通过集成的提示词工程(Prompt Engineering)技术和增强现实技术,本发明能够高效地解析提示并理解上下文语义,为用户提供便捷的增强现实处理方法,避免了因为场景迁移和需求增加而导致的代码重构和修改。
图1是根据本发明实施例的基于大规模语言模型的语音交叉实时增强现实方法的流程图。
如图1所示,上述基于大规模语言模型的语音交叉实时增强现实方法包括操作S110~操作S170。
在操作S110,利用交互应用程序调用预训练的多语言语音文字转换模型,将用户通过移动通信终端发出语音指令转换成原始字符指令,其中,交互应用程序内嵌在移动通信终端中。
首先,用户开启移动通信终端设备的麦克风,说出语音指令,内嵌在移动通信终端设备中的交互应用程序调用预训练的多语言语音转文字模型将语音指令转换成原始字符指令。
根据本发明的实施例,上述多语言语音文字转换模型包括采用Transformer序列到序列架构进行构建。
可选地,上述多语言语音文字转换模块可以是Whisper模型,Whisper模型是新一代开源的语音识别模型,采用Transformer序列到序列的架构,在多种语音处理任务上进行训练。本发明旨在利用这一预训练模型,通过本地部署模型的方式,实现高效且快速的语音转文本转换。相比将音频流上传到云端进行处理的方式,采用本地部署的语音转文字模型能够更好地保护用户的隐私和安全。
在操作S120,构建面向目标实体抽取的提示模板用于输入原始字符指令,并将原始字符指令经由大规模语言模型进行实体名称的抽取操作,得到语音指令中所包括的目标实体名称。
构建目标实体抽取的提示模板,该提示模板包括输入句子,输出为抽取出的实体的名称。
可选地,面向目标实体抽取的提示模板的特征为:
<s>sentence [object-prompt]
其中,sentence为输入原始字符指令,输出为识别的实体的名称。
在操作S130,利用交互应用程序调用平面检测功能在移动通信终端中显示可定制的选择框,并根据用户需求对可定制的选择框进行处理,得到辅助实体放置的提示模板。
首先,交互应用程序调用内置的平面检测功能,在移动通信终端的电容屏幕上显示一个选择框,即为交互应用程序检测到的一个平面;然后由用户拖动选择框,移动到目标位置,缩放到目标大小,并选择设置当前选择为平面锚点。此时,交互应用程序获取到目标锚点的位置矩阵planeAnchorPosition,目标平面的四个顶点的位置矩阵AnchorPosition1、AnchorPosition2、 AnchorPosition3和AnchorPosition4,移动通信终端的世界坐标系位置矩阵 cameraPosition。
在操作S140,将辅助实体放置的提示模板经由大规模语言模型进行关键位置信息的整合,得到目标平面瞄点的长、宽、面积和中心点法向量,进而构成目标位置填充词。
上述大规模语言模型或者大规模语言模型平台与用户的移动通信终端通信连接。
可选地,大规模语言模型或平台,可以选择ChatGPT平台,可以选择其他开源的大规模语言模型进行微调,如LLaMa(Meta 公司研制)、ChatYuan(轻量化大模型,可本地部署)等。
构建辅助实体放置的提示模板,该提示模板包括输入句子,输出为平面锚点的长、宽、面积,以及其法向向量。
可选地,基于位置平面可视化的辅助实体放置提示词的特征为:
<s>[planeAnchorPosition]:[AnchorPositions]:[cameraPosition]<position-prompt>
其中,planeAnchorPosition为目标锚点的位置矩阵,AnchorPositions为目标平面的四个顶点的位置矩阵拼接,cameraPosition为移动通信终端的世界坐标系位置矩阵,输出为目标平面锚点的长planeHeight、宽planeWeight、面积planeSquare以及其法向向量planeNormalVector,用于接下来的位置辅助的代码生成。
在操作S150,利用交互应用程序将原始字符指令、目标实体名称以及目标位置填充词输入到面向生成可执行增强现实脚本的提示词模板进行预处理,得到预处理结果。
在操作S160,将预处理结果发送到大规模语言模型中进行推理,并将得到的可执行增强现实脚本指令返回到交互应用程序。
交互应用程序将原始字符指令和抽取出的目标实体名称填入到面向生成可执行增强现实脚本的提示词模板中,然后发送给大规模语言模型平台等待响应,收到响应后将脚本传入到后端代码执行引擎,完成代码运行。
可选的,面向生成可执行增强现实脚本的提示模板的特征为:
<s>sentence[slot-object]sj,object[/slot-object][position-prompt]si,pValue[/position-prompt] [prompt]
其中,sentence为输入原始字符指令,si为预定义的槽位标签,包括槽位标签的中文名称si,name 、si,position以及槽位标签的实际值si,object 、si,pValue(即识别出的实体的名称和目标平面的数值特征),[position-prompt]是为了大规模语言模型能生成目标锚点位置的可执行增强现实脚本的提示词,[prompt]是为了让大规模语言模型生成完整的可执行增强现实脚本的提示词。
在操作S170,利用交互应用程序执行可执行增强现实脚本指令,将所得到的目标实体名称的模型资产在交互应用程序中完成调度、绑定与渲染,得到并显示增强现实结果。
本发明提供的上述基于大规模语言模型的语音交叉实时增强现实方法通过利用大规模语言模型的强大生成能力和上下文理解能力,使增强现实应用能够根据不同场景的需求进行灵活的适应和个性化定制。用户可以通过语音指令与系统进行可持续交互,实时创建不同的三维增强现实内容,并根据个人需求进行定制和编辑,进而提高了场景适用性以及满足了用户个性化需求;同时在通过语音指令实现增强现实内容的持续处理,简化用户的操作流程,提供更直观、便捷的交互方式。用户可以通过语音指令快速创建、修改和交互增强现实模型,提升用户体验和参与度,解决了传统增强现实系统中的操作逻辑通常较为复杂,需要依赖手势或特定设备进行操作等诸多问题。
根据本发明的实施例,上述基于大规模语言模型的语音交叉实时增强现实方法还包括:根据目标实体名称在移动通信终端进行本地近似语义的向量检索,得到向量检索结果;在向量检索结果是目标实体名称命中移动通信终端中的本地模型资产的情况下,加载命中的本地模型资产,并将命中的本地模型资产绑定到3D场景根节点进行显示或绑定到调用辅助实体放置的提示模板所得到的目标节点位置上进行显示;在向量检索结果是目标实体名称未命中移动通信终端中的本地模型资产的情况下,利用交互应用程序与云端服务器建立TCP连接,向云端服务器请求与目标实体名称相对应的模型资产,将云端服务器返回来的模型资产进行解压和加载,并将解码和加载后的模型资产绑定到3D场景根节点进行显示或绑定到调用辅助实体放置的提示模板所得到的目标节点位置上进行显示。
内嵌在移动通信终端中的交互应用程序首先根据返回的抽取出的实体名称进行本地近似语义的向量检索,如果命中对应名称的模型资产,直接加载该模型资产,并将模型实体绑定到3D场景根节点;如果没有命中,移动通信终端与云端服务器建立TCP链接,交互应用程序向服务器请求对应实体名称的模型资产,并等待服务器返回响应,当下载结束后,执行文件解压命令并加载该模型资产,然后将模型实体绑定到 3D 场景根节点。
根据本发明的实施例,上述基于大规模语言模型的语音交叉实时增强现实方法还包括:在云端服务器没有与目标实体名称相对应的模型资产的情况下,通过生成式人工智能技术生成与目标实体名称相对应的模型资产。
图2是根据本发明实施例的通过生成式人工智能技术生成与目标实体名称相对应的模型资产的流程图。
如图2所示,上述通过生成式人工智能技术生成与目标实体名称相对应的模型资产包括操作S210~操作S240。
在操作S210,利用自然语言处理技术对语音指令进行解析处理,得到搜索条件,并根据搜索条件,利用交互应用程序进行语义搜索,得到与目标实体名称最接近的3D模型资产。
在操作S220,根据预设的比较条件,利用交互应用程序对3D模型资产进行评估并进行模型特征差距提炼,得到3D模型资产与语音指令所反映出的用户需求之间的模型特征差距。
在操作S230,利用预设的模型编辑算法对将模型特征差距转化为节点编辑树,并利用交互应用程序通过对节点编辑树的编辑实现对3D模型资产的属性信息进行修改,得到重塑后的3D模型资产。
在操作S240,利用交互应用程序将重塑后的3D模型资产与语音指令所反映出的用户需求进行语义关联,并将语义关联处理后的3D资产模型返回给用户。
下面结合具体实施例对上述操作S210~操作S240做进一步详细地说明。
若云端服务器没有该模型资产,则需要通过生成式人工智能技术生成。生成步骤为:1)语义搜索:交互应用程序首先进行语义搜索,根据用户的需求查找最接近的已存3D模型。这个过程使用先进的自然语言处理技术,理解用户的语言输入,并将其转化为能够与3D模型属性相匹配的搜索条件;2)模型特征差距提炼:当找到最接近的3D模型后,交互应用程序将评估这个模型与用户需求之间的差距。这个过程将涉及到比较各种模型特性,如形状、大小、色彩、纹理等,并提炼出模型特征差距;3)差距转化为节点编辑树:接下来,交互应用程序将使用专门的算法将模型特征差距转化为节点编辑树,这是3D编辑软件的内置功能。节点编辑树是一种表示模型编辑步骤和过程的数据结构,它可以清晰地指示出如何通过编辑操作来达到用户的需求;4)模型编辑重塑:然后,交互应用程序将通过节点树对3D模型进行几何、着色、纹理等多方面的编辑重塑。这个过程可能包括改变模型的形状、修改颜色和纹理、添加或移除部分等;5)模型存储与返回:最后,交互应用程序将存储新生成的3D模型及其与用户需求之间的语义关联,并将模型返回给用户,以供他们使用或进一步编辑。
根据本发明的实施例,上述目标位置填充词包括大规模语言模型根据目标平面锚点的位置设置生成目标实体名称的位置矩阵、大规模语言模型根据目标平面中心点法向量生成目标实体名称的法线向量、大规模语言模型根据目标平面面积设置目标实体名称的缩放因子。
可选地,该[position-prompt]提示词的描述中,包含:1)大规模语言模型需要严格按照当前目标平面锚点的位置设置生成实体的位置矩阵;2)大规模语言模型需要根据当前平面锚点的法线向量生成实体的法线向量;3)大规模语言模型需要根据当前平面的大小设置合适的缩放因子,用于之后的缩放实体模型。
根据本发明的实施例,上述目标位置填充词还包括大规模语言模型在用户所处的场景中是脚本代码生成器、大规模语言模型只能生成包裹在匿名函数中的代码、大规模语言模型不能定义任何新的函数、大规模语言模型定义所有需要用到的变量和常量,并在上下文引用时,保持所定义的变量和常量的名称一致以及符合编程语言规则的函数和数据。
可选地,该[prompt]提示词的描述中,包含:1)大规模语言模型在此场景中是一个脚本代码生成器;2)大规模语言模型只能生成包裹在匿名函数中的代码;3)大规模语言模型不能定义任何新的函数;4)大规模语言模型必须定义所有需要用到的变量和常量,在上下文引用时,需要保持变量和常量的名称一致;5)代码不得调用任何函数或使用除基本语言规范和规定之外的任何数据类型。
根据本发明的实施例,上述符合变成语言规则的函数包括用于创建模型实体的函数、用于放置平面的函数、目标平面属性函数以及用于获得地面基平面的函数。
可选地,本发明提及的函数需要符合以下规定:1)一个名为CreateModelEntity()的函数,只接受描述对象的字符串作为参数,返回值是该对象,返回的对象在创建后必须初始化其属性;2)存在一个名为placePlane()的函数,不接受任何参数,返回一个平面对象的数组;3)每个平面对象有两个属性:'center'(平面的中心位置)和'size'(平面的尺寸)。每个属性都是长度为3的数字数组;4)存在一个名为GetGroundPlane()的函数,不接受任何参数,返回对应于地板或地面的平面,如果不存在平面,则返回null。
可选地,本发明所提供的上述方法,交互应用程序还可以包括一个反馈环节,允许用户对生成的模型进行评价和反馈。这些反馈可以用来进一步改进生成算法,使其更好地对齐用户的需求。
下面结合另一具体实施方式以及附图3和图4对上述基于大规模语言模型的语音交叉实时增强现实方法做进一步详细地说明。
图3是根据本发明另一实施例的基于大规模语言模型的语音交叉实时增强现实方法的架构示意图。
图4是根据本发明另一实施例的基于大规模语言模型的语音交叉实时增强现实方法的流程示意图。
如图3和4所示,用户通过移动通信终端(或其他类型的设备,例如AR眼镜)发出语音指令,内嵌在移动通信终端中的交互应用程序调用预训练的多语言语音转文字模型将语音指令转换成原始字符指令,移动通信终端与大规模语言模型或平台通信连接;构建目标实体抽取的提示模板,该提示模板包括输入句子,输出为抽取出的实体的名称;交互应用程序将原始字符指令和抽取出的目标实体名称填入到面向生成可执行增强现实脚本的提示词模板中,然后发送给大规模语言模型平台等待响应,收到响应后将脚本传入到后端代码执行引擎,完成代码运行;内嵌在移动通信终端中的交互应用程序首先根据返回的抽取出的实体名称进行本地近似语义的向量检索,如果命中对应名称的模型资产,直接加载该模型资产,并将模型实体绑定到3D场景根节点;如果没有命中,交互应用程序与云端服务器建立TCP链接,系统向服务器请求对应实体名称的模型资产,并等待服务器返回响应,当下载结束后,执行文件解压命令并加载该模型资产,然后将模型实体绑定到 3D 场景根节点。
本发明通过语音指令实体抽取技术,能够高效快捷的理解用户的意图,并创建持久化的上下文语境信息,建立了一种新的增强现实应用交互范式。针对传统增强现实应用的弊端,本发明通过提出的提示词工程方法从大规模语言模型平台获得可执行的增强现实脚本,大大降低了增强现实应用的开发难度,便于场景的迁移和需求的动态调整。本发明采用了语音指令控制的生成式人工智能技术来生成缺失的3D模型。通过这种方法,用户无需精通3D建模技术,就可以轻松地生成他们所需的3D模型。这大大降低了用户的门槛,增加了增强现实应用的易用性和普适性。同时,这种技术也极大地提高了系统的灵活性,可以更好地适应用户的变化需求,生成各种复杂度和风格的3D模型。本发明不依赖特定的增强现实硬件平台,可以在消费级移动通信终端上运行相应的计算机程序,并且使用难度小,用户只需说出语音指令即可。
本发明通过面向大规模语言模型的提示词工程方法创建了一种新式的增强现实应用交互方式,即通过语音指令完成增强现实内容的上下文相关的处理,其中包括面向实体抽取的提示词工程和面向生成增强现实脚本的提示词工程。本发明提供了一种基于语音指令控制的生成式人工智能技术的3D模型生成方法,即当云端服务器没有用户需要的模型资产时,系统会根据用户的语义需求生成新的3D模型。这个过程包括语义搜索、模型特征差距提炼、差距转化为节点编辑树、模型编辑重塑和模型存储与返回等步骤。本发明给出一种基于大规模语言模型的实时增强现实内容处理方法流程。
图5示意性示出了根据本发明实施例的适于实现基于大规模语言模型的语音交叉实时增强现实方法的电子设备的方框图。
如图5所示,根据本发明实施例的电子设备500包括处理器501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。处理器501例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器501还可以包括用于缓存用途的板载存储器。处理器501可以包括用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 503中,存储有电子设备500操作所需的各种程序和数据。处理器 501、ROM502以及RAM 503通过总线504彼此相连。处理器501通过执行ROM 502和/或RAM 503中的程序来执行根据本发明实施例的方法流程的各种操作。需要注意,程序也可以存储在除ROM502和RAM 503以外的一个或多个存储器中。处理器501也可以通过执行存储在一个或多个存储器中的程序来执行根据本发明实施例的方法流程的各种操作。
根据本发明的实施例,电子设备500还可以包括输入/输出(I/O)接口505,输入/输出(I/O)接口505也连接至总线504。电子设备500还可以包括连接至I/O接口505的以下部件中的一项或多项:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
本发明还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本发明实施例的方法。
根据本发明的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本发明的实施例,计算机可读存储介质可以包括上文描述的ROM 502和/或RAM 503和/或ROM 502和RAM 503以外的一个或多个存储器。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于大规模语言模型的语音交叉实时增强现实方法,其特征在于,包括:
利用交互应用程序调用预训练的多语言语音文字转换模型,将用户通过移动通信终端发出语音指令转换成原始字符指令,其中,所述交互应用程序内嵌在所述移动通信终端中;
构建面向目标实体抽取的提示模板用于输入所述原始字符指令,并将所述原始字符指令经由大规模语言模型进行实体名称的抽取操作,得到所述语音指令中所包括的目标实体名称;
利用所述交互应用程序调用平面检测功能在所述移动通信终端中显示可定制的选择框,并根据用户需求对所述可定制的选择框进行处理,得到辅助实体放置的提示模板;
将所述辅助实体放置的提示模板经由所述大规模语言模型进行关键位置信息的整合,得到目标平面锚点的长、宽、面积和中心点法向量,进而构成目标位置填充词;
利用所述交互应用程序将所述原始字符指令、所述目标实体名称以及所述目标位置填充词输入到面向生成可执行增强现实脚本的提示词模板进行预处理,得到预处理结果;
将所述预处理结果发送到所述大规模语言模型中进行推理,并将得到的可执行增强现实脚本指令返回到所述交互应用程序;
利用所述交互应用程序执行所述可执行增强现实脚本指令,将所得到的所述目标实体名称的模型资产在所述交互应用程序中完成调度、绑定与渲染,得到并显示增强现实结果。
2.根据权利要求1所述的方法,其特征在于,还包括:
根据所述目标实体名称在所述移动通信终端进行本地近似语义的向量检索,得到向量检索结果;
在所述向量检索结果是所述目标实体名称命中所述移动通信终端中的本地模型资产的情况下,加载命中的本地模型资产,并将所述命中的本地模型资产绑定到3D场景根节点进行显示或绑定到调用所述辅助实体放置的提示模板所得到的目标节点位置上进行显示;
在所述向量检索结果是所述目标实体名称未命中所述移动通信终端中的本地模型资产的情况下,利用所述交互应用程序与云端服务器建立TCP连接,向所述云端服务器请求与所述目标实体名称相对应的模型资产,将所述云端服务器返回来的模型资产进行解压和加载,并将解码和加载后的模型资产绑定到所述3D场景根节点进行显示或绑定到调用所述辅助实体放置的提示模板所得到的目标节点位置上进行显示。
3.根据权利要求2所述的方法,其特征在于,还包括:
在所述云端服务器没有与所述目标实体名称相对应的模型资产的情况下,通过生成式人工智能技术生成与所述目标实体名称相对应的模型资产。
4.根据权利要求3所述的方法,其特征在于,通过生成式人工智能技术生成与所述目标实体名称相对应的模型资产包括:
利用自然语言处理技术对所述语音指令进行解析处理,得到搜索条件,并根据所述搜索条件,利用所述交互应用程序进行语义搜索,得到与所述目标实体名称最接近的3D模型资产;
根据预设的比较条件,利用所述交互应用程序对所述3D模型资产进行评估并进行模型特征差距提炼,得到所述3D模型资产与所述语音指令所反映出的用户需求之间的模型特征差距;
利用预设的模型编辑算法对将所述模型特征差距转化为节点编辑树,并利用交互应用程序通过对所述节点编辑树的编辑实现对所述3D模型资产的属性信息进行修改,得到重塑后的3D模型资产;
利用所述交互应用程序将所述重塑后的3D模型资产与所述语音指令所反映出的用户需求进行语义关联,并将语义关联处理后的3D资产模型返回给用户。
5.根据权利要求1所述的方法,其特征在于,所述多语言语音文字转换模型包括采用Transformer序列到序列架构进行构建。
6.根据权利要求1所述的方法,其特征在于,所述目标位置填充词包括所述大规模语言模型根据所述目标平面锚点的位置设置生成所述目标实体名称的位置矩阵、所述大规模语言模型根据所述目标平面中心点法向量生成所述目标实体名称的法线向量、所述大规模语言模型根据所述目标平面面积设置所述目标实体名称的缩放因子。
7.根据权利要求6所述的方法,其特征在于,所述目标位置填充词还包括所述大规模语言模型在用户所处的场景中是脚本代码生成器、所述大规模语言模型只能生成包裹在匿名函数中的代码、所述大规模语言模型不能定义任何新的函数、所述大规模语言模型定义所有需要用到的变量和常量,并在上下文引用时,保持所定义的变量和常量的名称一致以及符合编程语言规则的函数和数据。
8.根据权利要求7所述的方法,其特征在于,所述符合编程语言规则的函数包括用于创建模型实体的函数、用于放置平面的函数、所述目标平面属性函数以及用于获得地面基平面的函数。
9.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~8中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~8中任一项所述的方法。
CN202311291667.7A 2023-10-08 2023-10-08 一种基于大规模语言模型的语音交叉实时增强现实方法 Active CN117079651B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311291667.7A CN117079651B (zh) 2023-10-08 2023-10-08 一种基于大规模语言模型的语音交叉实时增强现实方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311291667.7A CN117079651B (zh) 2023-10-08 2023-10-08 一种基于大规模语言模型的语音交叉实时增强现实方法

Publications (2)

Publication Number Publication Date
CN117079651A CN117079651A (zh) 2023-11-17
CN117079651B true CN117079651B (zh) 2024-02-23

Family

ID=88719731

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311291667.7A Active CN117079651B (zh) 2023-10-08 2023-10-08 一种基于大规模语言模型的语音交叉实时增强现实方法

Country Status (1)

Country Link
CN (1) CN117079651B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117373456B (zh) * 2023-12-05 2024-03-12 广州小鹏汽车科技有限公司 语音交互方法、服务器及计算机可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105074623A (zh) * 2013-03-14 2015-11-18 微软技术许可有限责任公司 在增强的现实图像中呈现对象模型
WO2018072617A1 (zh) * 2016-10-21 2018-04-26 阿里巴巴集团控股有限公司 一种虚拟现实/增强现实空间环境中的数据对象交互方法及装置
US10665030B1 (en) * 2019-01-14 2020-05-26 Adobe Inc. Visualizing natural language through 3D scenes in augmented reality
US11275946B1 (en) * 2020-09-15 2022-03-15 International Business Machines Corporation Generation of computer vision labels from remotely-assisted augmented reality sessions
CN114327055A (zh) * 2021-12-23 2022-04-12 佩林(北京)科技有限公司 一种基于元宇宙vr/ar和ai技术的3d真人实时场景交互系统
WO2022255641A1 (ko) * 2021-06-04 2022-12-08 주식회사 피앤씨솔루션 증강현실 글라스 장치의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법 및 장치
CN116186310A (zh) * 2023-05-04 2023-05-30 苏芯物联技术(南京)有限公司 一种融合ai通用助手的ar空间标注及展示方法
CN116824930A (zh) * 2023-07-06 2023-09-29 深圳大学 融合虚拟现实和大语言模型的智能超声教学平台及设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150123966A1 (en) * 2013-10-03 2015-05-07 Compedia - Software And Hardware Development Limited Interactive augmented virtual reality and perceptual computing platform
US11922582B2 (en) * 2021-04-12 2024-03-05 Google Llc Location-specific three-dimensional models responsive to location-related queries
US11782271B2 (en) * 2022-01-07 2023-10-10 Brilliant Labs Limited Augmented reality device and methods of use

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105074623A (zh) * 2013-03-14 2015-11-18 微软技术许可有限责任公司 在增强的现实图像中呈现对象模型
WO2018072617A1 (zh) * 2016-10-21 2018-04-26 阿里巴巴集团控股有限公司 一种虚拟现实/增强现实空间环境中的数据对象交互方法及装置
US10665030B1 (en) * 2019-01-14 2020-05-26 Adobe Inc. Visualizing natural language through 3D scenes in augmented reality
US11275946B1 (en) * 2020-09-15 2022-03-15 International Business Machines Corporation Generation of computer vision labels from remotely-assisted augmented reality sessions
WO2022255641A1 (ko) * 2021-06-04 2022-12-08 주식회사 피앤씨솔루션 증강현실 글라스 장치의 입력 인터페이스를 위한 손동작 및 음성명령어 인식 성능 향상 방법 및 장치
CN114327055A (zh) * 2021-12-23 2022-04-12 佩林(北京)科技有限公司 一种基于元宇宙vr/ar和ai技术的3d真人实时场景交互系统
CN116186310A (zh) * 2023-05-04 2023-05-30 苏芯物联技术(南京)有限公司 一种融合ai通用助手的ar空间标注及展示方法
CN116824930A (zh) * 2023-07-06 2023-09-29 深圳大学 融合虚拟现实和大语言模型的智能超声教学平台及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
AI Chains: Transparent and Controllable Human-AI Interaction by Chaining Large Language Model Prompts;Wu Tongshuang 等;PROCEEDINGS OF THE 2022 CHI CONFERENCE ON HUMAN FACTORS IN COMPUTING SYSTEMS;第1-22页 *

Also Published As

Publication number Publication date
CN117079651A (zh) 2023-11-17

Similar Documents

Publication Publication Date Title
CN110889381B (zh) 换脸方法、装置、电子设备及存储介质
CN117079651B (zh) 一种基于大规模语言模型的语音交叉实时增强现实方法
CN110798636A (zh) 字幕生成方法及装置、电子设备
CN116597087A (zh) 三维模型生成方法及装置、存储介质及电子设备
CN111540032B (zh) 基于音频的模型控制方法、装置、介质及电子设备
CN115937033A (zh) 图像生成方法、装置及电子设备
CN117132456A (zh) 图像生成方法、装置、电子设备及存储介质
CN113469292A (zh) 视频合成模型的训练方法、合成方法、装置、介质和设备
CN115510347A (zh) 演示文稿的转换方法、装置、电子设备及存储介质
CN116737895A (zh) 一种数据处理方法及相关设备
CN116913278B (zh) 语音处理方法、装置、设备和存储介质
CN114529635A (zh) 一种图像生成方法、装置、存储介质及设备
CN114491352A (zh) 模型加载方法、装置、电子设备及计算机可读存储介质
KR102621436B1 (ko) 음성 합성 방법, 장치, 전자 기기 및 저장 매체
CN116010899A (zh) 多模态数据处理及预训练模型的预训练方法、电子设备
CN116975357A (zh) 视频生成方法、装置、电子设备、存储介质及程序产品
CN117219052A (zh) 韵律预测方法、装置、设备、存储介质和程序产品
CN116168108A (zh) 文本生成图像的方法及装置、存储介质及电子设备
CN116721185A (zh) 图像处理方法、装置、设备、存储介质及计算机程序产品
CN114247143A (zh) 基于云服务器的数字人互动方法、装置、设备及存储介质
CN113496225A (zh) 图像处理方法、装置、计算机设备及存储介质
CN118153129B (zh) 基于微调大模型的工件三维模型生成方法、设备及介质
CN117994610B (zh) 一种图表生成方法及系统
US20230316474A1 (en) Enhancing detailed segments in latent code-based edited digital images
CN118138854A (zh) 视频生成方法、装置、计算机设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant