CN113987142A

CN113987142A - 与虚拟人偶的语音智能交互方法、装置、设备及存储介质

Info

Publication number: CN113987142A
Application number: CN202111195666.3A
Authority: CN
Inventors: 王纪章; 戎荣
Original assignee: Shanghai Xinglan Information Technology Co ltd
Current assignee: Shanghai Xinglan Information Technology Co ltd
Priority date: 2021-10-13
Filing date: 2021-10-13
Publication date: 2022-01-28

Abstract

本发明属于智能交互技术领域，公开了一种与虚拟人偶的语音智能交互方法、装置、设备及存储介质。该方法包括：当接收到用户输入的第一语音信息时，根据第一语音信息查询预设语料库，得到目标语句；根据目标语句确定目标指令；根据目标指令确定虚拟3D人偶的目标指引操作；控制虚拟3D人偶在婚礼虚拟场景中执行目标指引操作，以完成与用户的语音交互。通过上述方式，可以根据第一语音信息查询预设语料库得到目标语句，然后根据目标语句确定目标指令，再根据目标指令指引虚拟3D人偶在婚礼虚拟场景下执行目标指引操作，完成与用户的语音交互，实现了以3D人偶的目标指引操作与用户的语音进行交互，使得用户与虚拟人偶的可视化交互更直观和智能。

Description

与虚拟人偶的语音智能交互方法、装置、设备及存储介质

技术领域

本发明涉及智能交互技术领域，尤其涉及一种与虚拟人偶的语音智能交互方法、装置、设备及存储介质。

背景技术

在人机交互飞速发展的如今，人们利用智能设备可以实现在显示屏幕上的各种人机交互，其中很常见的一种就是与智能AI的交互，并且涉及到了各种各样的虚拟场景，但是在现有的虚拟婚礼场景下的智能交互往往只是用户通过点击屏幕指挥智能AI或者虚拟人偶进行动作，并不能达到根据用户语音输入的信息使得虚拟3D人偶自动、人性化的反馈，使得与虚拟人偶的可视化交互不够直观和智能。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种与虚拟人偶的语音智能交互方法、装置、设备及存储介质，旨在解决现有技术在婚礼虚拟场景下的与虚拟人偶的可视化交互更直观和智能的技术问题。

为实现上述目的，本发明提供了一种与虚拟人偶的语音智能交互方法，所述方法包括以下步骤：

当接收到用户输入的第一语音信息时，根据所述第一语音信息查询预设语料库，得到目标语句；

根据所述目标语句确定目标指令；

根据所述目标指令确定虚拟3D人偶的目标指引操作；

控制所述虚拟3D人偶在婚礼虚拟场景中执行所述目标指引操作，以完成与用户的语音交互。

可选地，所述当接收到用户输入的第一语音信息时，根据所述第一语音信息查询预设语料库，得到目标语句之前，还包括：

向用户发送人偶创建指令，并接收所述用户根据所述人偶创建指令上传的人偶创建信息；

根据所述人偶创建信息得到人偶参照图片和人偶属性参数；

根据所述人偶参照图片和所述人偶属性参数创建与所述用户匹配的虚拟3D人偶。

获取预设的婚礼虚拟场景下的语料作为初始语料；

获取所述婚礼虚拟场景下的初始语料与指令用语的对应关系；

根据所述初始语料和所述对应关系构建预设语料库。

可选地，所述当接收到用户输入的第一语音信息时，根据所述第一语音信息查询预设语料库，得到目标语句，包括：

当接收到用户输入的第一语音信息时，根据所述第一语音信息得到第一文本信息；

获取所述用户输入所述第一语音信息时刻所对应的第一图像信息；

根据所述第一文本信息查询预设语料库，得到第一目标语句；

根据所述第一图像信息确定第二目标语句；

根据所述第一目标语句和所述第二目标语句确定目标语句。

可选地，所述根据所述目标指令确定虚拟3D人偶的目标指引操作，包括：

根据所述目标指令确定虚拟3D人偶的交互模式；

当所述交互模式为信息回复模式时，根据所述目标指令生成信息回复文本和信息回复语音；

将展示所述信息回复文本和所述信息回复语音作为目标指引操作。

可选地，所述根据所述目标指令确定虚拟3D人偶的交互模式之后，还包括：

当所述交互模式为动作回复模式时，根据所述目标指令查询预设的指令-动作对照表；

根据所述指令-动作对照表确定所述目标指令对应的目标动作；

将完成所述目标动作作为所述目标指引操作。

当所述交互模式为婚礼执行模式时，根据所述目标指令确定目标虚拟3D人偶；

生成婚礼目标动作和婚礼目标语音；

控制所述目标虚拟3D人偶按照所述婚礼目标动作和所述婚礼目标语音在所述婚礼虚拟场景下进行婚礼。

此外，为实现上述目的，本发明还提出一种与虚拟人偶的语音智能交互装置，所述与虚拟人偶的语音智能交互装置包括：

语音接收模块，用于当接收到用户输入的第一语音信息时，根据所述第一语音信息查询预设语料库，得到目标语句；

指令确定模块，用于根据所述目标语句确定目标指令；

回复确定模块，用于根据所述目标指令确定虚拟3D人偶的目标指引操作；

操作执行模块，用于控制所述虚拟3D人偶在婚礼虚拟场景中执行所述目标指引操作，以完成与用户的语音交互。

此外，为实现上述目的，本发明还提出一种与虚拟人偶的语音智能交互设备，所述与虚拟人偶的语音智能交互设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的与虚拟人偶的语音智能交互程序，所述与虚拟人偶的语音智能交互程序配置为实现如上文所述的与虚拟人偶的语音智能交互方法的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有与虚拟人偶的语音智能交互程序，所述与虚拟人偶的语音智能交互程序被处理器执行时实现如上文所述的与虚拟人偶的语音智能交互方法的步骤。

本发明当接收到用户输入的第一语音信息时，根据所述第一语音信息查询预设语料库，得到目标语句；根据所述目标语句确定目标指令；根据所述目标指令确定虚拟3D人偶的目标指引操作；控制所述虚拟3D人偶在婚礼虚拟场景中执行所述目标指引操作，以完成与用户的语音交互。通过上述方式，可以在接收到用户输入的第一语音信息时，根据第一语音信息查询预设语料库得到目标语句，然后根据目标语句确定目标指令，再根据目标指令指引虚拟3D人偶在婚礼虚拟场景下执行目标指引操作，完成与用户的语音交互，实现了以3D人偶的目标指引操作与用户的语音进行交互，使得用户与虚拟人偶的可视化交互更直观和智能。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的与虚拟人偶的语音智能交互设备的结构示意图；

图2为本发明与虚拟人偶的语音智能交互方法第一实施例的流程示意图；

图3为本发明与虚拟人偶的语音智能交互方法第二实施例的流程示意图；

图4为本发明与虚拟人偶的语音智能交互装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的与虚拟人偶的语音智能交互设备结构示意图。

如图1所示，该与虚拟人偶的语音智能交互设备可以包括：处理器1001，例如中央处理器(Central Processing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity，Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory，RAM)存储器，也可以是稳定的非易失性存储器(Non-Volatile Memory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对与虚拟人偶的语音智能交互设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及与虚拟人偶的语音智能交互程序。

在图1所示的与虚拟人偶的语音智能交互设备中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明与虚拟人偶的语音智能交互设备中的处理器1001、存储器1005可以设置在与虚拟人偶的语音智能交互设备中，所述与虚拟人偶的语音智能交互设备通过处理器1001调用存储器1005中存储的与虚拟人偶的语音智能交互程序，并执行本发明实施例提供的与虚拟人偶的语音智能交互方法。

本发明实施例提供了一种与虚拟人偶的语音智能交互方法，参照图2，图2为本发明一种与虚拟人偶的语音智能交互方法第一实施例的流程示意图。

本实施例中，所述与虚拟人偶的语音智能交互方法包括以下步骤：

步骤S10：当接收到用户输入的第一语音信息时，根据所述第一语音信息查询预设语料库，得到目标语句。

需要说明的是，本实施例的执行主体为用户终端，可以为个人电脑、智能手机、平板电脑等，也可以是能实现此功能的其他装置或设备，本实施例对此不加以限定。并且本实施例的执行是在用户终端上的APP上实现的。

应理解的是，一般用户与虚拟3D人偶的互动是基于用户在屏幕上点击或者滑动所产生的手势指令，然后虚拟的3D人偶在屏幕上通过显示进行反馈，但是这种交互方法都是只能通过点击屏幕实现，并不够智能，并且虚拟3D人偶不能针对用户的个性化的指令做出反馈，使得与虚拟人偶的交互不够直观，所以提出本实施例以使得与虚拟人偶的交互可以通过用户输入语音实现，并且虚拟人偶可以自动、人性化的对用户的语音作出反馈。

在具体实施中，第一语音信息指的是用户通过智能设备的声音采集功能，比如：麦克风等设备采集到的用户说出的语音信息。

需要说明的是，预设语料库是预先建立的语料库，预设语料库用于储存语料并可以根据语音信息查询到语音信息对应的文本语句。

应理解的是，目标语句是以文本形式进行存储的语句，目标语句也就是将第一语音信息与预设语料库中储存的语料进行比对，最终匹配到的与第一语音信息的内容和意图一致的文本语句。

在具体实施中，当接收到用户输入的第一语音信息时，根据所述第一语音信息查询预设语料库，得到目标语句指的是：当开启了智能终端上的APP并接受到用户通过智能终端的语音输入模块输入的第一语音信息时，根据第一语音信息查询预先建立的预设语料库，将第一语音信息与预设语料库中的语料一一对比，最终得到文本形式的目标语句。

进一步地，现有的虚拟3D人偶的形象往往只能根据预先提供的形象模组进行组合得到，并不够个性化，为了能够在用户与虚拟3D人偶进行交互之前预先建立与用户需求匹配的虚拟3D人偶形象，步骤S10之前，还包括：向用户发送人偶创建指令，并接收所述用户根据所述人偶创建指令上传的人偶创建信息；根据所述人偶创建信息得到人偶参照图片和人偶属性参数；根据所述人偶参照图片和所述人偶属性参数创建与所述用户匹配的虚拟3D人偶。

需要说明的是，人偶创建指令是通过智能终端向用户展示的指令，用于提示用户上传创建虚拟3D人偶所需要的人偶创建信息，人偶创建指令可以为任意形式的能实现此功能的指令，本实施例对此不加以限制。

应理解的是，人偶创建信息中包含了创建虚拟3D人偶的所有信息，比如人偶参照图片和人偶属性参数。

在具体实施中，人偶参照图片使用户上传的用于塑造用户创建的虚拟3D人偶的面部特征的图片，可以是用户使用相机即时拍照得到的包含了用户面部特征的照片，也可以是用户从系统相册中选择的包含任意人像的面部特征的照片。

需要说明的是，人偶属性参数是用户自行设定的用于控制虚拟3D人偶的各项身体数据的参数，人偶属性参数可以包括：人偶的身高、体型、着装、性别等有关于人偶的身体数据的参数，本实施例对此不加以限制。

应理解的是，根据所述人偶参照图片和所述人偶属性参数创建与所述用户匹配的虚拟3D人偶指的是：当得到人偶参照图片和人偶属性参数之后，根据人偶参照图片和人偶属性参数自动生成虚拟3D人偶，生成的虚拟3D人偶的面部特征依照人偶参照图片生成，并且各项身体数据根据人偶属性参数生成，最后得到的虚拟3D人偶与当前用户所登陆的账号进行绑定，只能由当前登录账号的用户使用和编辑。

通过这种方式，实现了由用户完全个性化定制与自己绑定的虚拟3D人偶，使得与虚拟人偶的交互更加个性化。

进一步地，为了能够更加适应在婚礼虚拟场景下的语料和交互，需要构建针对婚礼虚拟场景下的语料库以适应在APP中用户与虚拟3D人偶的交互，步骤S10之前，还包括：获取预设的婚礼虚拟场景下的语料作为初始语料；获取所述婚礼虚拟场景下的初始语料与指令用语的对应关系；根据所述初始语料和所述对应关系构建预设语料库。

在具体实施中，婚礼虚拟场景指的是在APP中预先设定的在智能终端上显示的虚拟的婚礼场景，可以包括与婚礼进行相关的所有虚拟场景，本实施例对此不加以限制。

需要说明的是，获取预设的婚礼虚拟场景下的语料作为初始语料指的是：获取预先设置的在婚礼虚拟场景下的婚礼用于、俗语以及常用语等婚礼语料，然后将这些婚礼预料作为初始语料。

应理解的是，所述婚礼虚拟场景下的初始语料与指令用语的对应关系指的是：预先存储的若干初始语料对应的某一特定的指令用语的对应关系，通过对应关系可以根据初始语料查询到对应的指令用语。

在具体实施中，智能终端和APP可以根据指令用语识别出对应需要执行的指令。

需要说明的是，当确定了初始语料和对应关系之后，将初始语料根据对应关系存储，构成了预设语料库，预设语料库中可以根据语料查找到对应的指令用语。

通过这种方式，可以针对婚礼虚拟场景构建特定的预设语料库，使得在APP中可以根据用户输入的第一语音信息更加准确的确定用户的意图，使得与虚拟人偶的交互更加准确。

进一步地，为了能够更加准确地识别出目标语句，步骤S10包括：当接收到用户输入的第一语音信息时，根据所述第一语音信息得到第一文本信息；获取所述用户输入所述第一语音信息时刻所对应的第一图像信息；根据所述第一文本信息查询预设语料库，得到第一目标语句；根据所述第一图像信息确定第二目标语句；根据所述第一目标语句和所述第二目标语句确定目标语句。

在具体实施中，第一文本信息是通过语音识别功能直接处理第一语音信息得到的文本信息。由于语音识别会因为用户的口音或者其他因素影响，所以第一文本信息可以是识别匹配度各不相同的若干个文本信息。

需要说明的是，获取所述用户输入所述第一语音信息时刻所对应的第一图像信息指的是：通过智能终端前置摄像头获取用户在输入第一语音信息的时段内图像信息，作为第一图像信息。第一图像信息主要包括用户的嘴唇活动的图像信息。

应理解的是，根据所述第一文本信息查询预设语料库，得到第一目标语句指的是：将第一文本信息带入到预设语料库中与预设语料库中存储的初始语料进行匹配，最终将匹配成功的语料和指令用语进行组合得到第一目标语句。

在具体实施中，根据所述第一图像信息确定第二目标语句指的是将第一图像信息中的用户嘴唇图像信息进行图像识别，并且结合预设的保存了嘴唇图像与语句的对应关系的对照表得到与第一图像信息匹配的用户说出的语句的文本为第二目标语句。

需要说明的是，第一目标语句是有第一文本信息查询预设语料库得到的，第一文本信息可以有多个，所以第一目标语句也可以有多个；第二目标语句是通过图像识别得到的文本信息，所以可以为与语句匹配度由高到低的若干个文本语句。

需要说明的是，根据所述第一目标语句和所述第二目标语句确定目标语句指的是：将第一目标语句和第二目标语句进行匹配，选择相似度最高的第一目标语句和第二目标语句进行组合得到的意图重合的语句即为目标语句。

通过这种方式，可以同时结合语音识别和图像识别确定目标语句，使得目标语句的确定更加准确。

步骤S20：根据所述目标语句确定目标指令。

应理解的是，目标指令指的是根据目标语句确定到与用户的意图对应的指令。

在具体实施中，根据所述目标语句确定目标指令指的是：当确定了目标语句之后，根据目标语句由APP或者智能终端自动识别出目标语句对应的用户指令。

步骤S30：根据所述目标指令确定虚拟3D人偶的目标指引操作。

需要说明的是，根据所述目标指令确定虚拟3D人偶的目标指引操作指的是：当确定了目标指令之后根据目标指令确定需要虚拟3D人偶执行的回应动作，该回应操作即为目标指引操作。

步骤S40：控制所述虚拟3D人偶在婚礼虚拟场景中执行所述目标指引操作，以完成与用户的语音交互。

应理解的是，控制所述虚拟3D人偶在婚礼虚拟场景中执行所述目标指引操作，以完成与用户的语音交互指的是，当确定了目标指引操作之后，由APP的程序根据目标指引操作自动控制虚拟3D人偶在预设的婚礼虚拟场景下执行目标指引操作。

本实施例通过当接收到用户输入的第一语音信息时，根据所述第一语音信息查询预设语料库，得到目标语句；根据所述目标语句确定目标指令；根据所述目标指令确定虚拟3D人偶的目标指引操作；控制所述虚拟3D人偶在婚礼虚拟场景中执行所述目标指引操作，以完成与用户的语音交互。通过上述方式，可以在接收到用户输入的第一语音信息时，根据第一语音信息查询预设语料库得到目标语句，然后根据目标语句确定目标指令，再根据目标指令指引虚拟3D人偶在婚礼虚拟场景下执行目标指引操作，完成与用户的语音交互，实现了以3D人偶的目标指引操作与用户的语音进行交互，使得用户与虚拟人偶的可视化交互更直观和智能。

参考图3，图3为本发明一种与虚拟人偶的语音智能交互方法第二实施例的流程示意图。

基于上述第一实施例，本实施例与虚拟人偶的语音智能交互方法中所述步骤S30，包括：

步骤S301：根据所述目标指令确定虚拟3D人偶的交互模式。

需要说明的是，交互模式指的是虚拟3D人偶回应用户的第一语音信息所采取的动作模式，包括但不限于：动作回复模式、信息回复模式以及婚礼执行模式。

应理解的是，根据所述目标指令确定虚拟3D人偶的交互模式指的是，根据目标指令查询预设的指令-模式对照表，指令-模式对照表中存储了所有的目标指令与交互模式的对照表，可以根据目标指令在指令-模式对照表中查询到对应的交互模式。

进一步地，为了使得虚拟3D人偶能通过动作回复用户，步骤S301之后，还包括：当所述交互模式为动作回复模式时，根据所述目标指令查询预设的指令-动作对照表；根据所述指令-动作对照表确定所述目标指令对应的目标动作；将完成所述目标动作作为所述目标指引操作。

在具体实施中，动作回复模式是控制模拟3D人偶通过完成目标动作来回复用户的模式。

需要说明的是，指令-动作对照表是预先设定并存储的，用于查找目标指令对应的目标动作。指令-动作对照表中指令与动作按照对应关系进行对应存储。

应理解的是，根据所述指令-动作对照表确定所述目标指令对应的目标动作指的是，根据目标指令查询指令-动作对照表，将查询到的结果的动作作为目标动作。

在具体实施中，目标动作可以是预先存储到指令-动作对照表中的人以动作，比如：换装、跳舞、移动、蹲下等通过虚拟3D人偶实现的动作，本实施例对此不加以限制。

通过这种方式，可以使得虚拟3D人偶可以通过完成目标动作做出对用户的回复和交互，使得可视化交互更加直观更加智能。

进一步地，为了能够根据用户的第一语音信息完成虚拟婚礼，步骤S301之后，还包括：当所述交互模式为婚礼执行模式时，根据所述目标指令确定目标虚拟3D人偶；生成婚礼目标动作和婚礼目标语音；控制所述目标虚拟3D人偶按照所述婚礼目标动作和所述婚礼目标语音在所述婚礼虚拟场景下进行婚礼。

需要说明的是，婚礼执行模式是控制虚拟3D人偶在APP中的婚礼虚拟场景下完成虚拟婚礼的交互模式。

应理解的是，目标虚拟3D人偶是在婚礼执行模式下进行婚礼的虚拟3D人偶，其中一个为当前用户登录账户对应的虚拟3D人偶，另一个为根据用户的目标指令确定的虚拟3D人偶，可以为使用此APP的任意用户的账号的虚拟3D人偶，本实施例对此不加以限制。

在具体实施中，婚礼目标语音和婚礼目标动作是预先存储在APP或者智能终端中的，用于控制目标虚拟3D人偶完成婚礼。婚礼目标动作可以包括：婚礼进行动作、求婚动作等，婚礼目标语音可以包括：求婚语音、婚礼进行语音等，本实施例对此不加以限制。

需要说明的是，控制所述目标虚拟3D人偶按照所述婚礼目标动作和所述婚礼目标语音在所述婚礼虚拟场景下进行婚礼指的是：控制虚拟3D人偶完成婚礼目标动作，然后播放婚礼目标语音，实现目标虚拟3D人偶在婚礼虚拟场景下进行婚礼。

通过这种方式，可以在APP中实现用户的虚拟3D人偶与其他用户的虚拟3D人偶的交互，提高了与虚拟人偶可视化交互的趣味性，也更加智能。

步骤S302：当所述交互模式为信息回复模式时，根据所述目标指令生成信息回复文本和信息回复语音。

在具体实施中，信息回复模式是虚拟3D人偶通过语音或者文本信息对用户进行回复。

需要说明的是，信息回复文本以及信息回复文本与目标指令的对应关系是存储在预设的指令-信息对照表中的，可以通过指令-信息对照表查询到目标指令对应的信息回复文本，然后根据信息回复文本自动生成信息回复语音。

步骤S303：将展示所述信息回复文本和所述信息回复语音作为目标指引操作。

应理解的是，将展示所述信息回复文本和所述信息回复语音作为目标指引操作指的是，将信息回复文本和信息回复语音作为目标指引操作，当控制虚拟3D人偶执行目标指引操作时会将信息回复文本向用户展示，信息回复语音向用户播放。

本实施例通过根据所述目标指令确定虚拟3D人偶的交互模式；当所述交互模式为信息回复模式时，根据所述目标指令生成信息回复文本和信息回复语音；将展示所述信息回复文本和所述信息回复语音作为目标指引操作。通过这种方式，可以实现根据目标指令判断交互模式，然后在信息回复模式下自动生成语音和文本对用户说的话进行回复，使得在婚礼虚拟场景下的与虚拟人偶的可视化交互更直观和智能。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有与虚拟人偶的语音智能交互程序，所述与虚拟人偶的语音智能交互程序被处理器执行时实现如上文所述的与虚拟人偶的语音智能交互方法的步骤。

由于本存储介质采用了上述所有实施例的全部技术方案，因此至少具有上述实施例的技术方案所带来的所有有益效果，在此不一一赘述。

参照图4，图4为本发明与虚拟人偶的语音智能交互装置第一实施例的结构框图。

如图4所示，本发明实施例提出的与虚拟人偶的语音智能交互装置包括：

语音接收模块10，用于当接收到用户输入的第一语音信息时，根据所述第一语音信息查询预设语料库，得到目标语句。

指令确定模块20，用于根据所述目标语句确定目标指令。

回复确定模块30，用于根据所述目标指令确定虚拟3D人偶的目标指引操作。

操作执行模块40，用于控制所述虚拟3D人偶在婚礼虚拟场景中执行所述目标指引操作，以完成与用户的语音交互。

在一实施例中，所述语音接收模块10，还用于向用户发送人偶创建指令，并接收所述用户根据所述人偶创建指令上传的人偶创建信息；根据所述人偶创建信息得到人偶参照图片和人偶属性参数；根据所述人偶参照图片和所述人偶属性参数创建与所述用户匹配的虚拟3D人偶。

在一实施例中，所述语音接收模块10，还用于获取预设的婚礼虚拟场景下的语料作为初始语料；获取所述婚礼虚拟场景下的初始语料与指令用语的对应关系；根据所述初始语料和所述对应关系构建预设语料库。

在一实施例中，所述语音接收模块10，还用于当接收到用户输入的第一语音信息时，根据所述第一语音信息得到第一文本信息；获取所述用户输入所述第一语音信息时刻所对应的第一图像信息；根据所述第一文本信息查询预设语料库，得到第一目标语句；根据所述第一图像信息确定第二目标语句；根据所述第一目标语句和所述第二目标语句确定目标语句。

在一实施例中，所述回复确定模块30，还用于根据所述目标指令确定虚拟3D人偶的交互模式；当所述交互模式为信息回复模式时，根据所述目标指令生成信息回复文本和信息回复语音；将展示所述信息回复文本和所述信息回复语音作为目标指引操作。

在一实施例中，所述回复确定模块30，还用于当所述交互模式为动作回复模式时，根据所述目标指令查询预设的指令-动作对照表；根据所述指令-动作对照表确定所述目标指令对应的目标动作；将完成所述目标动作作为所述目标指引操作。

在一实施例中，所述回复确定模块30，还用于当所述交互模式为婚礼执行模式时，根据所述目标指令确定目标虚拟3D人偶；生成婚礼目标动作和婚礼目标语音；控制所述目标虚拟3D人偶按照所述婚礼目标动作和所述婚礼目标语音在所述婚礼虚拟场景下进行婚礼。

需要说明的是，以上所描述的工作流程仅仅是示意性的，并不对本发明的保护范围构成限定，在实际应用中，本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的，此处不做限制。

另外，未在本实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的与虚拟人偶的语音智能交互方法，此处不再赘述。

应当理解的是，以上仅为举例说明，对本发明的技术方案并不构成任何限定，在具体应用中，本领域的技术人员可以根据需要进行设置，本发明对此不做限制。

此外，需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器(Read Only Memory，ROM)/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种与虚拟人偶的语音智能交互方法，其特征在于，所述与虚拟人偶的语音智能交互方法包括：

根据所述目标语句确定目标指令；

根据所述目标指令确定虚拟3D人偶的目标指引操作；

2.如权利要求1所述的与虚拟人偶的语音智能交互方法，其特征在于，所述当接收到用户输入的第一语音信息时，根据所述第一语音信息查询预设语料库，得到目标语句之前，还包括：

根据所述人偶创建信息得到人偶参照图片和人偶属性参数；

3.如权利要求1所述的与虚拟人偶的语音智能交互方法，其特征在于，所述当接收到用户输入的第一语音信息时，根据所述第一语音信息查询预设语料库，得到目标语句之前，还包括：

获取预设的婚礼虚拟场景下的语料作为初始语料；

根据所述初始语料和所述对应关系构建预设语料库。

4.如权利要求1所述的与虚拟人偶的语音智能交互方法，其特征在于，所述当接收到用户输入的第一语音信息时，根据所述第一语音信息查询预设语料库，得到目标语句，包括：

根据所述第一图像信息确定第二目标语句；

根据所述第一目标语句和所述第二目标语句确定目标语句。

5.如权利要求1所述的与虚拟人偶的语音智能交互方法，其特征在于，所述根据所述目标指令确定虚拟3D人偶的目标指引操作，包括：

根据所述目标指令确定虚拟3D人偶的交互模式；

6.如权利要求5所述的与虚拟人偶的语音智能交互方法，其特征在于，所述根据所述目标指令确定虚拟3D人偶的交互模式之后，还包括：

将完成所述目标动作作为所述目标指引操作。

7.如权利要求5所述的与虚拟人偶的语音智能交互方法，其特征在于，所述根据所述目标指令确定虚拟3D人偶的交互模式之后，还包括：

生成婚礼目标动作和婚礼目标语音；

8.一种与虚拟人偶的语音智能交互装置，其特征在于，所述与虚拟人偶的语音智能交互装置包括：

指令确定模块，用于根据所述目标语句确定目标指令；

9.一种与虚拟人偶的语音智能交互设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的与虚拟人偶的语音智能交互程序，所述与虚拟人偶的语音智能交互程序配置为实现如权利要求1至7中任一项所述的与虚拟人偶的语音智能交互方法。

10.一种存储介质，其特征在于，所述存储介质上存储有与虚拟人偶的语音智能交互程序，所述与虚拟人偶的语音智能交互程序被处理器执行时实现如权利要求1至7任一项所述的与虚拟人偶的语音智能交互方法。