CN116560512A - 虚拟数字人交互方法、电子设备、系统及存储介质 - Google Patents
虚拟数字人交互方法、电子设备、系统及存储介质 Download PDFInfo
- Publication number
- CN116560512A CN116560512A CN202310629884.6A CN202310629884A CN116560512A CN 116560512 A CN116560512 A CN 116560512A CN 202310629884 A CN202310629884 A CN 202310629884A CN 116560512 A CN116560512 A CN 116560512A
- Authority
- CN
- China
- Prior art keywords
- user
- information
- data
- virtual digital
- interaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 129
- 238000000034 method Methods 0.000 title claims abstract description 74
- 230000008447 perception Effects 0.000 claims abstract description 60
- 230000007613 environmental effect Effects 0.000 claims abstract description 18
- 230000000007 visual effect Effects 0.000 claims abstract description 18
- 230000001953 sensory effect Effects 0.000 claims description 12
- 230000016776 visual perception Effects 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000004806 packaging method and process Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 abstract description 19
- 230000004044 response Effects 0.000 abstract description 9
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 16
- 230000009471 action Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 6
- 239000000779 smoke Substances 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000033001 locomotion Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000013475 authorization Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 210000000697 sensory organ Anatomy 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 230000010006 flight Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明涉及人工智能技术领域,具体提供一种虚拟数字人交互方法、电子设备、系统及存储介质,旨在解决虚拟数字人采集多种信息之后响应速度较慢、与用户进行交互时用户体验感较差的问题。为此目的,本发明的方法包括获取多模态感知数据,其中多模态感知数据包括视觉感知数据、听觉感知数据和环境感知数据中至少两种,基于多模态感知数据获取用户权限信息,基于用户权限信息和多模态感知数据获取交互信息,基于交互信息与用户进行交互。通过上述实施方式,可以针对不同用户提供不同的交互服务,提高用户的使用体验,通过用户权限信息和多模态感知数据获取交互信息,能够提升虚拟数字人的响应速度,提升交互效果。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种虚拟数字人交互方法、电子设备、系统及存储介质。
背景技术
随着虚拟数字人核心技术与周边技术的不断发展与推进,虚拟数字人产品与方案将会越来越成熟、规范,生产者、消费者也将不断要求虚拟数字人能够脱去虚拟的外衣,变得越来越智慧,越来越拟人。虚拟数字人通过感知设备能够采集多种外界信息,达到“耳朵听”和“眼睛看”等人类感官的作用和能力。
但是,虚拟数字人在采集多种信息之后响应速度较慢,并且在与用户进行交互时,仅能根据不同用户展示不同的声音、表情和动作等,并未针对不同用户开放不同的服务权限,导致用户的交互体验性较差。
相应地,本领域需要一种新的技术方案来解决上述问题。
发明内容
为了克服上述缺陷,提出了本发明,以提供解决或至少部分地解决虚拟数字人采集多种信息之后响应速度较慢、与用户进行交互时用户体验感较差的技术问题的一种虚拟数字人交互方法、电子设备、系统及存储介质。
在第一方面,提供一种虚拟数字人交互方法,所述方法包括:
获取多模态感知数据,所述多模态感知数据包括视觉感知数据、听觉感知数据和环境感知数据中至少两种;
基于所述多模态感知数据获取用户权限信息;
基于所述用户权限信息和所述多模态感知数据获取交互信息;
基于所述交互信息与用户进行交互。
在上述虚拟数字人交互方法的一个技术方案中,基于所述多模态感知数据获取用户权限信息包括:
基于所述视觉感知数据和/或所述听觉感知数据确认用户身份信息;
基于所述用户身份信息判断所述用户的权限等级。
在上述虚拟数字人交互方法的一个技术方案中,所述基于所述用户权限信息和所述多模态感知数据获取交互信息包括:
若所述用户的权限等级高于预设权限等级,则基于所述用户的权限等级和所述多模态感知数据获取所述交互信息;
否则,基于所述预设权限等级和所述多模态感知数据获取所述交互信息。
在上述虚拟数字人交互方法的一个技术方案中,所述获取多模态感知数据包括基于多个不同种类感知设备分别获取所述视觉感知数据、所述听觉感知数据和所述环境感知数据中至少两种;所述基于所述用户权限信息和所述多模态感知数据获取交互信息包括:
将所述多个不同种类感知设备获取的所述多模态感知数据进行统一封装,转换为相同格式的感知信息;
对所述感知信息进行特征提取,得到用户信息和环境信息;
将所述用户信息和所述环境信息进行融合分析,得到感知结果;
基于所述用户权限信息和所述感知结果获取所述交互信息。
在上述虚拟数字人交互方法的一个技术方案中,所述基于所述交互信息与用户进行交互包括:
将所述交互信息发送至服务器,并接收所述服务器发送的所述交互指令;
基于所述交互指令与用户进行交互。
或,
基于所述交互信息直接生成所述交互指令;
基于所述交互指令与用户进行交互。
在上述虚拟数字人交互方法的一个技术方案中,所述基于所述用户权限信息和所述多模态感知数据获取交互信息之前,所述方法包括:
基于所述用户的权限等级生成对应的推荐服务并进行展示;
基于用户选择的所述推荐服务与所述多模态感知数据获取所述交互信息。
在上述虚拟数字人交互方法的一个技术方案中,所述方法还包括:
当所述虚拟数字人与其他设备进行通信时,基于所述环境感知数据控制所述其他设备执行相应操作。
在第二方面,提供一种电子设备,该电子设备包括处理器和存储装置,所述存储装置适于存储多条程序代码,所述程序代码适于由所述处理器加载并运行以执行上述虚拟数字人交互方法的技术方案中任一项技术方案所述的虚拟数字人交互方法。
在第三方面,提供一种虚拟数字人交互系统,所述虚拟数字人交互系统包括上述电子设备的技术方案所述的电子设备和多模态感知设备;
所述多模态感知设备被配置为获取多模态感知数据,所述多模态感知数据包括视觉感知数据、听觉感知数据和环境感知数据中至少两种;
所述电子设备被配置为基于所述多模态感知数据与用户进行交互。
在第四方面,提供一种计算机可读存储介质,该计算机可读存储介质其中存储有多条程序代码,所述程序代码适于由处理器加载并运行以执行上述虚拟数字人交互方法的技术方案中任一项技术方案所述的虚拟数字人交互方法。
本发明上述一个或多个技术方案,至少具有如下一种或多种
有益效果:
在实施本发明的技术方案中,首先获取多模态感知数据,其中,多模态感知数据至少包括视觉感知数据、听觉感知数据和环境感知数据中至少两种,然后基于多模态感知数据获取用户权限信息,基于用户权限信息和多模态感知数据获取交互信息,并基于交互信息与用户进行交互。通过上述实施方式,可以针对不同用户提供不同的交互服务,提高用户的使用体验,通过用户权限信息和多模态感知数据获取交互信息,能够提升虚拟数字人的响应速度,提升交互效果。
附图说明
参照附图,本发明的公开内容将变得更易理解。本领域技术人员容易理解的是:这些附图仅仅用于说明的目的,而并非意在对本发明的保护范围组成限制。其中:
图1是根据本发明的一个实施例的虚拟数字人交互方法的主要步骤流程示意图;
图2是根据本发明的一个实施例的基于多模态感知数据获取用户权限信息的主要步骤流程示意图;
图3是根据本发明的一个实施例的基于用户权限信息和多模态感知数据获取交互信息的主要步骤流程示意图;
图4是根据本发明的一个实施例的虚拟数字人交互示意图;
图5是根据本发明的另一个实施例的虚拟数字人交互方法的主要步骤流程示意图;
图6是根据本发明的一个实施例的基于交互信息与用户进行交互的主要步骤流程示意图;
图7是根据本发明的另一个实施例的基于交互信息与用户进行交互的主要步骤流程示意图;
图8是根据本发明的一个实施例的电子设备主要结构示意图;
图9是根据本发明的一个实施例的虚拟数字人交互系统主要结构示意图。
附图标记列表:
801:处理器;802:存储装置;901:多模态感知设备;902:电子设备。
具体实施方式
下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
在本发明的描述中,“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路,各种合适的感应器,通信端口,存储器,也可以包括软件部分,比如程序代码,也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质,比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合,比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似,可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。
这里先解释本发明涉及到的一些术语。
多模态感知设备:虚拟数字人交互系统的一部分,主要用于是获取现实世界的数据,即多模态感知数据。
多模态感知数据:由多模态感知设备获得的数据,包括视觉感知数据、听觉感知数据和环境感知数据。由于不同感知设备具有不同的模态与格式,多模态感知数据无法直接进行信息综合。
感知信息:将多模态感知数据进行封装、转换后的产物。能够在虚拟数字人交互系统中进行传递、计算。
深度摄像头:能够获取平面图像以及拍摄对象的深度信息,也就是三维的位置和尺寸信息,获得环境和用户的三维立体数据。
麦克风阵列(MicrophoneArray):由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理。
如背景技术所述,随着虚拟数字人核心技术与周边技术的不断发展与推进,虚拟数字人产品与方案将会越来越成熟、规范,生产者、消费者也将不断要求虚拟数字人能够脱去虚拟的外衣,变得越来越智慧,越来越拟人。虚拟数字人通过感知设备能够采集多种外界信息,达到“耳朵听”和“眼睛看”等人类感官的作用和能力。
但是,虚拟数字人在采集多种信息之后响应速度较慢,并且在与用户进行交互时,仅能根据不同用户展示不同的声音、表情和动作等,并未针对不同用户开放不同的服务权限,导致用户的交互体验性较差。
针对上述问题,本发明提供了一种虚拟数字人交互方法、电子设备、系统及存储介质。
参阅附图1,图1是根据本发明的一个实施例的虚拟数字人交互方法的主要步骤流程示意图。如图1所示,本发明实施例中的虚拟数字人交互方法主要包括下列步骤S101至步骤S104。
步骤S101:获取多模态感知数据。
其中,多模态感知数据包括视觉感知数据、听觉感知数据和环境感知数据中至少两种。
步骤S102:基于多模态感知数据获取用户权限信息。
步骤S103:基于用户权限信息和多模态感知数据获取交互信息。
步骤S104:基于交互信息与用户进行交互。
基于上述步骤S101至步骤S104所述的方法,可以针对不同用户提供不同的交互服务,提高用户的使用体验,通过用户权限信息和多模态感知数据获取交互信息,能够提升虚拟数字人的响应速度,提升交互效果。
下面对上述步骤S101至步骤S104作进一步说明。
在上述步骤S101的一些实施方式中,获取多模态感知数据包括:
基于多个不同种类感知设备分别获取视觉感知数据、听觉感知数据和环境感知数据中至少两种。
具体地,可以通过多个不同种类的摄像头(包括可见光摄像头、深度摄像头等)、麦克风(包括阵列麦克风、手持麦克风等)、光线传感器、温湿度传感器、烟雾传感器等分别获取视觉感知数据、听觉感知数据和环境感知数据。
其中,可见光摄像头采用可视角度较大的型号,以保证能够拍摄到用户的全貌,对镜头边缘进行畸变矫正,准确还原用户位置。
深度摄像头采用可视角度较大的型号,以获取用户的深度信息,用于用户定位的计算。
手持麦克风采用传统麦克风,可以接收用户音频信息,一般情况下,单个麦克风对应单名用户。
麦克风阵列由一定数目的声学传感器,一般是麦克风组成,用来对声场的空间特性进行采样并处理,采用多个麦克风相比单个麦克风收音范围更广,且能获得声源方向。
温湿度、光线、烟雾等传感器采用专用传感器,以获得特定环境信息。
进一步地,可以通过上述摄像头获得视觉感知数据、通过麦克风获取听觉感知数据、通过环境传感器获取环境感知数据。
在另一些实施方式中,还可以通过触觉传感器、嗅觉传感器等设备获取触觉感知数据、嗅觉感知数据等更丰富的感知数据。
通过多个不同种类感知设备获取多模态感知数据,能够提炼出更高维度的数据,具备更强稳定性和准确性,还能够减少对单个感知设备的依赖。
需要指出的是,以上关于获取多模态感知数据的举例只是示意性说明,在实际应用中,本领域技术人员可以根据具体场景选择要获取多模态感知数据以及相应的感知设备,此处不做限定。
以上是对步骤S101的进一步说明,下面继续对步骤S102作进一步说明。
在上述步骤S102的一些实施方式中,参阅附图2,图2是根据本发明的一个实施例的基于多模态感知数据获取用户权限信息的主要步骤流程示意图。如图2所示,主要包括下列步骤S201至步骤S202。
步骤S201:基于视觉感知数据和/或听觉感知数据确认用户身份信息。
在一些实施方式中,可以从视觉感知数据中提取用户图像,并将用户图像和数据库中存储的用户图像进行匹配,根据匹配结果获取用户身份信息。或从听觉感知数据中提取用户声音,将用户声音和数据库中存储的用户声音进行匹配,根据匹配结果获取用户身份信息。
在另一些实施方式中,还可以同时提取用户图像和用户声音,并将用户图像和用户声音与数据库中存储的用户图像和用户声音进行匹配,获取用户身份信息。
其中,数据库可以是本地数据库或云端数据库,数据库中预先存储了用户身份信息,每个用户身份信息对应该用户的用户图像和/或用户声音。
具体地,当虚拟数字人应用于家用场景时,由于家庭成员人数较少,可以将全部家庭成员的身份信息存储在本地数据库中;当虚拟数字人应用于商用场景时,由于用户人数较多,可以将部分用户的身份信息存储在云端数据库中,并在实际应用中更新云端数据库,存储更多用户的身份信息。
步骤S202:基于用户身份信息判断用户的权限等级。
具体地,数据库中还存储了用户身份信息对应的权限等级,在确认了用户身份信息之后,可以判断对应的权限等级。
其中,用户的权限等级可以根据具体使用场景进行设置。
例如,虚拟数字人应用于家用场景时,可以将家长对应的权限等级设置为高级权限,将儿童对应的权限等级设置为低级权限。
其中,低级权限可以包括与虚拟数字人对话、对虚拟数字人提问等,高级权限可以包括指示虚拟数字人播放音频视频、基于虚拟数字人与智能家居设备的联动,控制其他设备执行相应操作,如打开空调,关闭门窗等。
虚拟数字人应用于商用场景,如展会时,可以将工作人员对应的权限等级设置为高级权限,将游客对应的权限等级设置为低级权限。
其中,低级权限可以包括与虚拟数字人对话、指示虚拟数字人进行讲解等;高级权限可以包括指示虚拟数字人播放音频视频、基于虚拟数字人与展会其他智能设备的联动,控制其他智能设备执行相应操作,如打开投影仪,调节温度等。
需要指出的是,以上关于用户的权限等级的举例只是示意性说明,在实际应用中,本领域技术人员可以根据具体场景进行设置,此处不做限定。
以上是对步骤S102的进一步说明,下面继续对步骤S103作进一步说明。
在上述步骤S103的一些实施方式中,若用户的权限等级高于预设权限等级,则基于用户的权限等级和多模态感知数据获取交互信息。
例如,当虚拟数字人应用于家用场景时,家庭成员的权限等级为高级权限,预设权限等级为中级权限,家庭成员的权限等级高于预设权限等级,则基于家庭成员的权限等级和多模态感知数据获取交互信息。
其中,高级权限可以包括指示虚拟数字人播放音频视频、基于虚拟数字人与其他智能设备的联动,控制其他智能设备执行相应操作,如关闭照明灯,打开油烟机等。
当虚拟数字人应用于商用场景,如车站、机场时,工作人员的权限等级为高级权限,预设权限等级为中级权限,工作人员的权限等级高于预设权限等级,则基于工作人员的权限等级和多模态感知数据获取交互信息。
其中,高级权限可以包括指示虚拟数字人播放广播、打开或关闭安检闸机等。
在上述步骤S103的另一些实施方式中,若用户的权限等级不高于预设权限等级或没有获取到用户的权限信息,则基于预设权限等级和多模态感知数据获取交互信息。
例如,当虚拟数字人应用于家用场景时,预设权限等级为中级权限,客人的权限等级为低级权限或没有获取到客人权限信息,则基于中级权限和多模态感知数据获取交互信息。
其中,中级权限可以包括与虚拟数字人对话、对虚拟数字人提问等。
当虚拟数字人应用于商用场景,如车站、机场时,预设权限等级为中级权限,乘客的权限等级为低级权限或没有获取到乘客权限信息,则基于中级权限和多模态感知数据获取交互信息。
其中,中级权限可以包括指示虚拟数字人规划导航、查询车次航班等。
进一步地,在一些实施方式中,参阅附图3,图3是根据本发明的一个实施例的基于用户权限信息和多模态感知数据获取交互信息的主要步骤流程示意图。如图3所示,步骤S103主要包括下列步骤S1031至步骤S1034。
步骤S1031:将多个不同种类感知设备获取的多模态感知数据进行统一封装,并转换为相同格式的感知信息。
具体地,参阅附图4,图4是根据本发明的一个实施例的虚拟数字人交互示意图。
如图4所示,可以将不同型号、不同厂家、不同规格的摄像头、麦克风等传感器获取的视觉感知数据、听觉感知数据和环境感知数据进行统一封装,将多种格式的数据转换为相同格式的感知信息。
在一些实施方式中,可以通过端口自适应或手动配置的方式将多种格式的视觉感知数据、听觉感知数据和环境感知数据进行统一封装,使多个不同种类感知设备能够达到即插即用的效果,降低复用门槛,缩短开发周期。
其中,感知信息可以包括视觉信息,听觉信息和环境信息。
步骤S1032:对感知信息进行特征提取,得到用户信息和环境信息。
在一些实施方式中,可以基于图4所示的算法对感知信息进行特征提取,具体地,可以包括:
1、通过人脸、人体检测算法,从视觉信息中提取人体、人脸信息,如数量及位置,并通过光学计算方法,获取用户在世界坐标系中的位置。
其中,人脸检测方法可以对摄像头图像中的人脸进行定位,获取人脸框位置、大小。进一步地,通过人脸深度图像处理可以将人脸深度图像和可见光图像进行对齐,对人脸区域内的深度值进行计算,得到人脸估计距离,通过摄像头内参、外参,以及人脸所处的图像坐标系中的坐标和人脸距离计算出人脸在世界坐标系下的位置,人脸检测方法可以用于驱动虚拟数字人的注视方向。
2、通过动作捕捉算法,从视觉信息中提取具体人体骨骼信息,获取用户动作。
其中,获取的用户动作可用于驱动虚拟数字人的“动作模仿”功能,使虚拟数字人进行动作模拟。
3、通过面部捕捉算法,从视觉信息中提取具体人脸信息,获取用户表情。
其中,获取的用户表情可用于驱动数字虚拟人的“表情模仿”功能,使虚拟数字人进行表情模拟。
4、通过人脸关键点算法,从视觉信息中提取用户面部关键点。通过面部关键点信息可分析得到诸如用户唇动状态、用户面部朝向等信息。
其中,用户面部关键点包括用户鼻尖、眼角、嘴角的位置。
5、通过人脸属性算法,从视觉信息中提取用户属性信息,如人脸角度、人物性别、年龄段、是否佩戴物,如口罩、眼镜等。
6、通过语音识别、自然语言处理算法,对听觉信息进行语音语义分析,提取用户说话内容,用户声纹,用户声音位置。
7、通过环境感知算法,可以提取环境信息和特征,如运动状态、物体识别等,并对特征进行分析,得出环境的状态。
以上是对感知信息进行特征提取的说明,本发明采用计算机视觉、语音识别、自然语言处理等深度学习技术,准确性高、鲁棒性强,并且随着深度学习技术更迭,算法性能将不断提升,同时具备强大的兼容性、拓展性,易用性,能够提供给虚拟数字人丰富的感知能力,仿佛“身临其境”。
其中,深度学习算法可以使用CPU、NPU等现有算法,在一些实施方式中,可根据不同需求、配置,选用从轻量级算法到全功能级别的算法组合,例如家用场景可主要配置音频解析、人脸检测等算法,商用场景可配置全功能级别的算法组合,进行更好的能力展示。
在一些实施方式中,可根据实际应用场景,同一个功能选用不同的实现方式,以更好地发挥算法性能。例如在人脸、人体检测时,检测人脸遮挡较多的情况下,可使用人体检测;在人体缺失较多的情况下,可使用人脸检测。
需要指出的是,以上关于对感知信息进行特征提取的举例只是示意性说明,在实际应用中,本领域技术人员可以根据具体使用场景进行设置,此处不做限定。
步骤S1033:将用户信息和环境信息进行融合分析,得到感知结果。
其中,感知结果包括用户想要得到的回复或用户想要执行的操作等。
步骤S1034:基于用户权限信息和感知结果获取交互信息。
在一些实施方式中,交互信息包括虚拟数字人对用户问题的回答以及对用户指示执行的相应操作等。
以上是对步骤S103的进一步说明。
在一些实施方式中,参阅附图5,图5是根据本发明的另一个实施例的虚拟数字人交互方法的主要步骤流程示意图。如图5所示,在执行上述步骤S103之前,还可以包括下列步骤S501至步骤S502。
步骤S501:基于用户的权限等级生成对应的推荐服务并进行展示。
在一些实施方式中,在确认用户身份信息以及对应的权限等级之后,可以根据用户的权限等级生成对应的推荐服务并进行展示。
具体地,可以将用户权限等对应的服务中使用频率较高的服务生成推荐服务并进行展示,也可以根据用户身份信息对应的历史记录,将用户最近使用的服务生成推荐服务并进行展示。
进一步地,推荐服务的展示方式可以为图标、列表或详细信息等,此处不作限定。
步骤S502:基于用户选择的推荐服务与多模态感知数据获取交互信息。
在用户选择了推荐服务后,可以根据用户选择的推荐服务与多模态感知数据获取交互信息。
进一步地,在上述步骤S104的一些实施方式中,参阅附图6,图6是根据本发明的一个实施例的基于交互信息与用户进行交互的主要步骤流程示意图。如图6所示,主要包括下列步骤S601至步骤S602
步骤S601:将交互信息发送至服务器,并接收服务器发送的交互指令。
步骤S602:基于交互指令与用户进行交互。
具体地,可以将交互信息通过网络协议发送至服务器,并且接收服务器下发的交互指令,根据交互指令驱动虚拟数字人与用户进行交互。
进一步地,在交互过程中,虚拟数字人还可以根据服务器下发的交互指令进行动态调整,比如改变面部表情,增加肢体动作等,可以提升交互的效果。
在上述步骤S104的另一些实施方式中,参阅附图7,图7是根据本发明的另一个实施例的基于交互信息与用户进行交互的主要步骤流程示意图。如图7所示,主要包括下列步骤S701至步骤S702。
步骤S701:基于交互信息直接生成交互指令。
步骤S702:基于交互指令与用户进行交互。
基于交互信息直接生成交互指令,可以减少通信带宽、算力占用,提升虚拟数字人的响应速度。
进一步地,在交互过程中,虚拟数字人可以根据生成交互指令进行动态调整,比如改变面部表情,增加肢体动作等,提升交互的效果。
需要说明的是,在本发明提供的虚拟数字人交互方法中,虚拟数字人可以是已经制作完成的虚拟形象,也可以是获取到交互指令后生成的虚拟形象,此处不做限定。
以上是对步骤S104的进一步说明。
在一些实施方式中,本发明提供的虚拟数字人交互方法还包括:
当虚拟数字人与其他设备进行通信时,基于环境感知数据控制其他设备执行相应操作。
具体地,虚拟数字人可与其他设备进行通信联动,基于环境感知数据控制其他设备执行相应操作。
例如,虚拟数字人与烟雾报警器、空气调节器等设备进行通信时,若烟雾浓度超过预设阈值,则控制烟雾报警器进行烟雾报警;若温湿度超过预设区间,则控制空气调节器进行温湿度调节等。
需要指出的是,尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述,但是本领域技术人员可以理解,为了实现本发明的效果,不同的步骤之间并非必须按照这样的顺序执行,其可以同时(并行)执行或以其他顺序执行,这些变化都在本发明的保护范围之内。
基于本发明提供的虚拟数字人交互方法,可以针对不同用户提供不同的交互服务,提高用户的使用体验,通过用户权限信息和多模态感知数据获取交互信息,能够提升虚拟数字人的响应速度,提升交互效果。
本领域技术人员能够理解的是,本发明实现上述一实施例的方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。
进一步,本发明还提供了一种电子设备。参阅附图8,图8是根据本发明的一个实施例的电子设备主要结构示意图。如图8所示,本发明实施例中的电子设备主要包括处理器801和存储装置802,存储装置802可以被配置成存储执行上述方法实施例的虚拟数字人交互方法的程序,处理器801可以被配置成用于执行存储装置802中的程序,该程序包括但不限于执行上述方法实施例的虚拟数字人交互方法的程序。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。
在本发明的一些可能的实施方式中,电子设备可以包括多个处理器801和多个存储装置802。而执行上述方法实施例的虚拟数字人交互方法的程序可以被分割成多段子程序,每段子程序分别可以由处理器801加载并运行以执行上述方法实施例的虚拟数字人交互方法的不同步骤。具体地,每段子程序可以分别存储在不同的存储装置802中,每个处理器801可以被配置成用于执行一个或多个存储装置802中的程序,以共同实现上述方法实施例的虚拟数字人交互方法,即每个处理器801分别执行上述方法实施例的虚拟数字人交互方法的不同步骤,来共同实现上述方法实施例的虚拟数字人交互方法。
上述多个处理器801可以是部署于同一个设备上的处理器,例如上述电子设备可以是由多个处理器组成的高性能设备,上述多个处理器801可以是该高性能设备上配置的处理器。此外,上述多个处理器801也可以是部署于不同设备上的处理器,例如上述电子设备可以是服务器集群,上述多个处理器801可以是服务器集群中不同服务器上的处理器。
进一步,本发明还提供了一种虚拟数字人交互系统。参阅附图9,图9是根据本发明的一个实施例的虚拟数字人交互系统主要结构示意图。如图9所示,虚拟数字人交互系统可以包括多模态感知设备901和电子设备902。
其中,多模态感知设备901被配置为获取多模态感知数据,多模态感知数据包括视觉感知数据、听觉感知数据和环境感知数据中至少两种;
电子设备902被配置为基于多模态感知数据与用户进行交互。
上述虚拟数字人交互系统以用于执行图1至图7所示的虚拟数字人交互方法的实施例,两者的技术原理、所解决的技术问题及产生的技术效果相似,本技术领域技术人员可以清楚地了解到,为了描述的方便和简洁,驾驶系统的具体工作过程及有关说明,可以参考虚拟数字人交互方法的实施例所描述的内容,此处不再赘述。
进一步,本发明还提供了一种计算机可读存储介质。在根据本发明的一个计算机可读存储介质实施例中,计算机可读存储介质可以被配置成存储执行上述方法实施例的虚拟数字人交互方法的程序,该程序可以由处理器加载并运行以实现上述虚拟数字人交互方法。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备,可选的,本发明实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。
需要说明的是,本公开实施例所涉及的用户信息(包括但不限于用户设备信息、用户个人信息、虚拟数字人使用数据对应的对象信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据、虚拟数字人使用数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本公开实施例中涉及到的数据的获取、采集等动作,均为经用户、对象授权或者经过各方充分授权后执行。
需要说明的是,本申请各实施例中可能涉及的相关用户个人信息,均为严格按照法律法规的要求,遵循合法、正当、必要的原则,基于业务场景的合理目的,处理用户在使用产品/服务过程中主动提供或因使用产品/服务而产生的,以及经用户授权获取的个人信息。
至此,已经结合附图所示的一个实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (10)
1.一种虚拟数字人交互方法,其特征在于,所述方法包括:
获取多模态感知数据,所述多模态感知数据包括视觉感知数据、听觉感知数据和环境感知数据中至少两种;
基于所述多模态感知数据获取用户权限信息;
基于所述用户权限信息和所述多模态感知数据获取交互信息;
基于所述交互信息与用户进行交互。
2.根据权利要求1所述的虚拟数字人交互方法,其特征在于,基于所述多模态感知数据获取用户权限信息包括:
基于所述视觉感知数据和/或所述听觉感知数据确认用户身份信息;
基于所述用户身份信息判断所述用户的权限等级。
3.根据权利要求2所述的虚拟数字人交互方法,其特征在于,所述基于所述用户权限信息和所述多模态感知数据获取交互信息包括:
若所述用户的权限等级高于预设权限等级,则基于所述用户的权限等级和所述多模态感知数据获取所述交互信息;
否则,基于所述预设权限等级和所述多模态感知数据获取所述交互信息。
4.根据权利要求1所述的虚拟数字人交互方法,其特征在于,所述获取多模态感知数据包括基于多个不同种类感知设备分别获取所述视觉感知数据、所述听觉感知数据和所述环境感知数据中至少两种;所述基于所述用户权限信息和所述多模态感知数据获取交互信息包括:
将所述多个不同种类感知设备获取的所述多模态感知数据进行统一封装,转换为相同格式的感知信息;
对所述感知信息进行特征提取,得到用户信息和环境信息;
将所述用户信息和所述环境信息进行融合分析,得到感知结果;
基于所述用户权限信息和所述感知结果获取所述交互信息。
5.根据权利要求1所述的虚拟数字人交互方法,其特征在于,所述基于所述交互信息与用户进行交互包括:
将所述交互信息发送至服务器,并接收所述服务器发送的所述交互指令;
基于所述交互指令与用户进行交互。
或,
基于所述交互信息直接生成所述交互指令;
基于所述交互指令与用户进行交互。
6.根据权利要求3所述的虚拟数字人交互方法,其特征在于,所述基于所述用户权限信息和所述多模态感知数据获取交互信息之前,所述方法包括:
基于所述用户的权限等级生成对应的推荐服务并进行展示;
基于用户选择的所述推荐服务与所述多模态感知数据获取所述交互信息。
7.根据权利要求1所述的虚拟数字人交互方法,其特征在于,所述方法还包括:
当所述虚拟数字人与其他设备进行通信时,基于所述环境感知数据控制所述其他设备执行相应操作。
8.一种电子设备,包括处理器和存储装置,所述存储装置适于存储多条程序代码,其特征在于,所述程序代码适于由所述处理器加载并运行以执行权利要求1至7中任一项所述的虚拟数字人交互方法。
9.一种虚拟数字人交互系统,所述虚拟数字人交互系统包括权利要求8所述的电子设备和多模态感知设备;
所述多模态感知设备被配置为获取多模态感知数据,所述多模态感知数据包括视觉感知数据、听觉感知数据和环境感知数据中至少两种;
所述电子设备被配置为基于所述多模态感知数据与用户进行交互。
10.一种计算机可读存储介质,其中存储有多条程序代码,其特征在于,所述程序代码适于由处理器加载并运行以执行权利要求1至7中任一项所述的虚拟数字人交互方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310629884.6A CN116560512A (zh) | 2023-05-30 | 2023-05-30 | 虚拟数字人交互方法、电子设备、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310629884.6A CN116560512A (zh) | 2023-05-30 | 2023-05-30 | 虚拟数字人交互方法、电子设备、系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116560512A true CN116560512A (zh) | 2023-08-08 |
Family
ID=87491506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310629884.6A Pending CN116560512A (zh) | 2023-05-30 | 2023-05-30 | 虚拟数字人交互方法、电子设备、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116560512A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117115321A (zh) * | 2023-10-23 | 2023-11-24 | 腾讯科技(深圳)有限公司 | 虚拟人物眼睛姿态的调整方法、装置、设备及存储介质 |
CN118276681A (zh) * | 2024-03-29 | 2024-07-02 | 深圳幻影未来信息科技有限公司 | 虚拟人交互一体机及其方法 |
-
2023
- 2023-05-30 CN CN202310629884.6A patent/CN116560512A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117115321A (zh) * | 2023-10-23 | 2023-11-24 | 腾讯科技(深圳)有限公司 | 虚拟人物眼睛姿态的调整方法、装置、设备及存储介质 |
CN117115321B (zh) * | 2023-10-23 | 2024-02-06 | 腾讯科技(深圳)有限公司 | 虚拟人物眼睛姿态的调整方法、装置、设备及存储介质 |
CN118276681A (zh) * | 2024-03-29 | 2024-07-02 | 深圳幻影未来信息科技有限公司 | 虚拟人交互一体机及其方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021043053A1 (zh) | 一种基于人工智能的动画形象驱动方法和相关装置 | |
US11858118B2 (en) | Robot, server, and human-machine interaction method | |
CN116560512A (zh) | 虚拟数字人交互方法、电子设备、系统及存储介质 | |
CN111885414B (zh) | 一种数据处理方法、装置、设备及可读存储介质 | |
CN109120790B (zh) | 通话控制方法、装置、存储介质及穿戴式设备 | |
CN109176535B (zh) | 基于智能机器人的交互方法及系统 | |
CN106156740B (zh) | 民航机场候机楼人脸快速识别系统 | |
WO2021213067A1 (zh) | 物品显示方法、装置、设备及存储介质 | |
JP7468588B2 (ja) | 情報処理装置、情報処理システム、および情報処理方法 | |
CN108965954A (zh) | 使用用于减少视频的回放时间的智能分析的终端 | |
CN112492380A (zh) | 音效调整方法、装置、设备及存储介质 | |
CN109784128A (zh) | 具有文本及语音处理功能的混合现实智能眼镜 | |
CN109343695A (zh) | 基于虚拟人行为标准的交互方法及系统 | |
CN207408959U (zh) | 具有文本及语音处理功能的混合现实智能眼镜 | |
CN109119080A (zh) | 声音识别方法、装置、穿戴式设备及存储介质 | |
CN116229311B (zh) | 视频处理方法、装置及存储介质 | |
CN109257490A (zh) | 音频处理方法、装置、穿戴式设备及存储介质 | |
EP3087727B1 (en) | An emotion based self-portrait mechanism | |
US20230005471A1 (en) | Responding to a user query based on captured images and audio | |
CN111182280A (zh) | 一种投影方法、投影装置、音箱设备及存储介质 | |
CN114115533A (zh) | 智能交互方法和装置 | |
CN112149599B (zh) | 表情追踪方法、装置、存储介质和电子设备 | |
CN109949721A (zh) | 一种全息影像显示装置以及全息影像的显示控制方法 | |
CN111265851B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN113948076A (zh) | 语音交互方法、设备和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |