CN116088675A - 虚拟形象交互方法及相关装置、设备、系统和介质 - Google Patents

虚拟形象交互方法及相关装置、设备、系统和介质 Download PDF

Info

Publication number
CN116088675A
CN116088675A CN202211643916.XA CN202211643916A CN116088675A CN 116088675 A CN116088675 A CN 116088675A CN 202211643916 A CN202211643916 A CN 202211643916A CN 116088675 A CN116088675 A CN 116088675A
Authority
CN
China
Prior art keywords
interactive
video stream
interaction
avatar
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211643916.XA
Other languages
English (en)
Inventor
疏坤
李�权
刘颖
何山
郜静文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202211643916.XA priority Critical patent/CN116088675A/zh
Publication of CN116088675A publication Critical patent/CN116088675A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L15/222Barge in, i.e. overridable guidance for interrupting prompts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/18Details of the transformation process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/04Synchronising
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请公开了一种虚拟形象交互方法及相关装置、设备、系统和介质,其中,虚拟形象交互方法包括:获取并播放第一视频流;响应于用户在播放第一视频流时的第二交互请求,发送打断合成请求和第二交互请求至交互应答服务器;其中,交互应答服务器响应于打断合成请求而暂停合成第一视频流,并响应于第二交互请求实时合成第二视频流,以及在第二视频流合成完毕之后,基于标志符,确定是否从打断位置开始继续合成新的第一视频流;获取并播放交互应答服务器新合成的视频流。上述方案,能够提升虚拟形象交互的自然度。

Description

虚拟形象交互方法及相关装置、设备、系统和介质
技术领域
本申请涉及人工智能技术领域,特别是涉及一种虚拟形象交互方法及相关装置、设备、系统和介质。
背景技术
随着人工智能技术的发展,虚拟形象已经在教育、娱乐等众多行业得到应用。例如,在娱乐行业,已经利用虚拟形象面对大众进行唱歌、跳舞等娱乐表演;或者,在诸如博物馆、纪念馆等文博领域,虚拟形象的落地应用也逐渐受到瞩目。
然而,现有虚拟形象在交互过程中还通常存在交互自然度差的缺陷,导致虚拟形象在推广应用受阻。有鉴于此,如何提升虚拟形象交互的自然度,成为亟待解决的问题。
发明内容
本申请主要解决的技术问题是提供一种虚拟形象交互方法及相关装置、设备、系统和介质,能够提升虚拟形象交互的自然度。
为了解决上述技术问题,本申请第一方面提供了一种虚拟形象交互系统,包括交互终端、交互应答服务器和信息处理服务器,所述交互终端与所述交互应答服务器通信连接,所述交互应答服务器与所述信息处理服务器通信连接,所述信息处理服务器中设有信息系统,用于供所述交互应答服务器在交互决策时检索信息,其中:所述交互终端,用于与用户交互获取用户的输入数据,以及从所述交互应答服务器获取并播放视频流,所述输入数据包括语音数据、图像数据中至少一者;所述交互应答服务器,用于基于所述输入数据进行交互决策,得到交互决策结果,且所述交互决策结果包括时间同步的交互文本和动作指令,并基于所述交互文本的合成语音和所述动作指令,合成视频流,且视频流中虚拟形象嘴部动作在时序上与所述合成语音相一致,肢体动作在时序上与所述动作指令相一致。
为了解决上述技术问题,本申请第二方面提供了一种交互系统测试方法,用于对第一方面中虚拟形象交互系统进行测试,包括:输入测试数据至所述虚拟形象交互系统中所述交互终端的测试驱动接口;其中,在所述测试数据为视频数据时被所述测试驱动接口拆分为音频数据和图像数据;获取所述虚拟形象交互系统在基于所述测试数据进行交互响应过程中与测试指标相关的采样数据;基于所述采样数据,得到所述虚拟形象交互系统在所述测试指标的测试值;基于所述虚拟形象交互系统在各个测试指标上的测试值,确定所述虚拟形象交互系统是否测试通过。
为了解决上述技术问题,本申请第三方面提供了一种虚拟形象交互方法,包括:获取并播放第一视频流;其中,交互应答服务器响应于用户通过交互终端发出的第一交互请求生成第一交互决策,并基于第一交互决策通过虚拟形象合成引擎实时合成第一视频流,交互应答服务器基于第一交互请求中关键词为第一视频流标记表征打断后是否续播的标志符;响应于用户在播放第一视频流时的第二交互请求,发送打断合成请求和第二交互请求至交互应答服务器;其中,交互应答服务器响应于打断合成请求而暂停合成第一视频流,并响应于第二交互请求实时合成第二视频流,以及在第二视频流合成完毕之后,基于标志符,确定是否从第一交互决策的打断位置开始继续合成新的第一视频流;获取并播放交互应答服务器新合成的视频流。
为了解决上述技术问题,本申请第四方面提供了一种虚拟形象交互方法,包括:基于交互终端发出的第一交互请求,生成第一交互决策,并基于第一交互决策通过虚拟形象合成引擎合成第一视频流,以及基于第一交互请求中关键词为第一视频流标记表征打断后是否续播的标志符;其中,交互终端获取并播放第一视频流;响应于交互终端发出的打断合成请求,暂停合成第一视频流,并响应于交互终端发出的第二交互请求,实时合成第二视频流,以及在第二视频流合成完毕之后,基于标志符,确定是否从第一交互决策的打断位置开始继续合成新的第一视频流;其中,打断合成请求由交互终端响应于用户在播放第一视频流时的第二交互请求而发送,且交互终端获取并播放新合成的视频流。
为了解决上述技术问题,本申请第五方面提供了一种交互系统测试装置,用于对上述第一方面中虚拟形象交互系统进行测试,包括输入模块、获取模块、计算模块和确定模块,输入模块,用于输入测试数据至所述虚拟形象交互系统中所述交互终端的测试驱动接口;其中,在所述测试数据为视频数据时被所述测试驱动接口拆分为音频数据和图像数据;获取模块,用于获取所述虚拟形象交互系统在基于所述测试数据进行交互响应过程中与测试指标相关的采样数据;计算模块,用于基于所述采样数据,得到所述虚拟形象交互系统在所述测试指标的测试值;确定模块,用于基于所述虚拟形象交互系统在各个测试指标上的测试值,确定所述虚拟形象交互系统是否测试通过。
为了解决上述技术问题,本申请第六方面提供了一种虚拟形象交互装置,包括:第一获取模块、请求发送模块和第二获取模块,第一获取模块,用于获取并播放第一视频流;其中,交互应答服务器响应于用户通过交互终端发出的第一交互请求生成第一交互决策,并基于第一交互决策通过虚拟形象合成引擎实时合成第一视频流,交互应答服务器基于第一交互请求中关键词为第一视频流标记表征打断后是否续播的标志符;请求发送模块,用于响应于用户在播放第一视频流时的第二交互请求,发送打断合成请求和第二交互请求至交互应答服务器;其中,交互应答服务器响应于打断合成请求而暂停合成第一视频流,并响应于第二交互请求实时合成第二视频流,以及在第二视频流合成完毕之后,基于标志符,确定是否从第一交互决策的打断位置开始继续合成新的第一视频流;第二获取模块,用于获取并播放交互应答服务器新合成的视频流。
为了解决上述技术问题,本申请第七方面提供了一种虚拟形象交互装置,包括:请求处理模块和打断续播模块,请求处理模块,用于基于交互终端发出的第一交互请求,生成第一交互决策,并基于第一交互决策通过虚拟形象合成引擎合成第一视频流,以及基于第一交互请求中关键词为第一视频流标记表征打断后是否续播的标志符;其中,交互终端获取并播放第一视频流;打断续播模块,用于响应于交互终端发出的打断合成请求,暂停合成第一视频流,并响应于交互终端发出的第二交互请求,实时合成第二视频流,以及在第二视频流合成完毕之后,基于标志符,确定是否从第一交互决策的打断位置开始继续合成新的第一视频流;其中,打断合成请求由交互终端响应于用户在播放第一视频流时的第二交互请求而发送,且交互终端获取并播放新合成的视频流。
为了解决上述技术问题,本申请第八方面提供了一种交互终端,包括:通信电路、存储器和处理器,通信电路和存储器分别耦接至处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第二方面中的虚拟形象交互方法。
为了解决上述技术问题,本申请第九方面提供了一种交互应答服务器,包括:通信电路、存储器和处理器,通信电路和存储器分别耦接至处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第三方面中的虚拟形象交互方法。
为了解决上述技术问题,本申请第十方面提供了一种计算机可读存储介质,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面或上述第二方面中的虚拟形象交互方法。
上述方案,获取并播放第一视频流,且交互应答服务器响应于用户通过交互终端发出的第一交互请求生成第一交互决策,并基于第一交互决策通过虚拟形象合成引擎实时合成第一视频流,交互应答服务器基于第一交互请求中关键词为第一视频流标记表征打断后是否续播的标志符。在此基础上,响应于用户在播放第一视频流时第二交互请求,发送打断合成请求和第二交互请求至交互应答服务器,且交互应答服务器响应于打断合成请求而暂停合成第一视频流,并响应于第二交互请求实时合成第二视频流,以及在第二视频流合成完毕之后,基于标志符,确定是否从第一交互决策的打断位置开始继续合成新的第一视频流,从而获取并播放交互应答服务器新合成的视频流,进而能够在交互应答服务器实时合成视频流以及交互终端播放该视频流的过程中,受到用户新的交互请求而打断合成,并先实时合成新的视频流,再根据是否续播的标志符确定是否从打断位置开始继续合成原视频流,故此能够大大提升文博虚拟形象交互的自然度。
附图说明
图1是本申请虚拟形象交互系统一实施例的框架示意图;
图2是虚拟形象合成引擎一实施方式的框架示意图;
图3是本申请虚拟形象交互方法一实施例的流程示意图;
图4是本申请虚拟形象交互方法另一实施例的流程示意图;
图5是本申请虚拟形象交互方法又一实施例的流程示意图;
图6是本申请虚拟形象交互装置一实施例的框架示意图;
图7是本申请虚拟形象交互装置另一实施例的框架示意图;
图8是本申请交互终端一实施例的框架示意图;
图9是本申请交互应答服务器一实施例的框架示意图;
图10是本申请交互系统测试方法一实施例的流程示意图;
图11是本申请交互系统测试装置一实施例的框架示意图;
图12是本申请计算机可读存储介质一实施例的框架示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
请参阅图1,图1是本申请虚拟形象交互系统一实施例的框架示意图。如图1所示,虚拟形象交互系统包括交互终端、交互应答服务器和信息处理服务器,且交互终端与交互应答服务器通信连接,交互应答服务器与信息处理服务器通信连接。信息处理服务器中设有信息系统,用于供交互应答服务器检索信息。上述设备的具体构造,可以参阅下述相关实施例,在此暂不赘述。图1中带圈数字表示文博虚拟形象系统的数据流向。具体来说:
(1)带圈数字1表示交互终端获取输入数据。具体地,文本交互终端可以与用户交互并获取用户的输入数据,且输入数据可以包括但不限于:语音数据、图像数据等,其中,图像数据可以包括但不限于:人脸图像、手势图像等。也就是说,在实际应用过程中,用户可以通过语音、人脸、手势等方式与交互终端进行交互。此外,如图1所示,交互终端可以包括但不限于:语音唤醒接口、人脸唤醒接口、手势识别接口、测试驱动接口等。语音唤醒接口用于在检测到语音数据中包含唤醒词时,唤醒交互终端,从而能够在交互终端展示虚拟形象,并与用户进行交互。人脸唤醒接口用于在检测到注册人脸时,唤醒交互终端,从而能够在交互终端展示虚拟形象,并与用户进行交互。手势识别接口用于识别手势类别,并为交互应答服务器中的交互决策接口提供识别到的手势类别。示例性地,上述人脸唤醒接口具体可以对人脸图像执行人脸检测、预处理、特征提取以及匹配与识别等操作。具体来说,通过人脸检测可以确定人脸位置和大小,运用预处理,可以提取出包含人脸的局部图像,再对其进行特征提取,从而可以将提取到的人脸特征与数据库中存储的特征模板进行搜索匹配,并预先设定一个阈值,若相似度超过这一阈值,则可以确定人脸图像为注册人脸,从而可以唤醒交互终端。此外,上述语音唤醒接口的实现原理,可以参阅语音唤醒的技术细节,上述手势识别接口的实现原理,可以参阅手势识别的技术细节,在此不再赘述。
(2)带圈数字2表示交互终端将语音数据提交给交互应答服务器中的语音识别接口。语音识别接口用于对语音数据进行识别,得到识别文本,并作为交互应答服务器中语义理解接口的输入数据。需要说明的是,语音识别接口可以采用GMM-HMM、循环神经网络、深度学习的端到端模型等,在此不做限定。语音识别的实现原理,可以参阅GMM-HMM、循环神经网络、深度学习的端到端模型等技术细节,在此不再赘述。
(3)带圈数字3表示语音识别接口将识别文本传递给语义理解接口。语义理解接口用于对识别文本进行理解,提取用户针对文博场景的交互意图,为交互应答服务器中交互决策接口提供理解到的交互意图。需要说明的是,语义理解接口可以采用门控循环单元、长短期记忆网络等,在此不做限定。语义理解的实现原理,可以参阅门控循环单元、长短期记忆网络等技术细节,在此不再赘述。
(4)带圈数字4表示语义理解接口将解析出来的交互意图传递至交互决策接口,带圈数字7表示交互终端中手势识别接口将识别到的手势类别传递至交互决策接口。带圈数字5表示交互决策接口根据上述交互意图和手势类别向信息处理服务器中信息系统提交查询请求或个人信息操作请求,带圈数字6表示交互决策接口获取信息系统返回的响应信息,并基于此进行决策处理,得到交互决策结果。更为具体地,交互决策结果可以包括时间同步的交互文本和动作指令。需要说明的是,信息系统收集、存储和处理相关信息。以文博场景为例,相关信息即为文博信息,文博信息具体可以包括但不限于:文博展品的相关信息(如,文博展品的历史渊源、技术工艺、文化价值)、注册用户的个人信息等,在此不做限定。此外,为了便于在信息系统查询,上述文博信息可以以结构化(如,知识图谱)的形式存储。当然,在实际应用过程中,由于用户通常采用语音交互的方式与交互终端进行交互,故交互决策接口可以至少基于交互意图在信息处理服务器中信息系统中检索得到响应消息,并基于响应消息进行决策处理,得到交互决策结果。
(5)带圈数字8表示语音合成接口接收交互文本。语音合成接口用于基于交互文本进行语音合成,得到合成语音,并据此为交互应答服务器中的形象合成接口提供输入数据。
(6)带圈数字9表示形象合成接口接收合成语音,带圈数字10表示形象合成接口接收动作指令。形象合成接口集成有虚拟形象合成引擎,用于受合成语音、动作指令中至少一者的驱动,而生成视频流,且视频流中虚拟形象嘴部动作在时序上与合成语音相一致,肢体动作在时序上与动作指令相一致。
由此可见,交互应答服务器可以基于输入数据进行交互决策,得到交互决策结果,且交互决策结果可以包括时间同步的交互文本和动作指令,并基于交互文本的合成语音和动作指令,合成视频流,且如前所述,视频流中虚拟形象嘴部动作在时序上与合成语音相一致,肢体动作在时序上与动作指令相一致。
具体地,请参阅图2,图2是虚拟形象合成引擎一实施方式的框架示意图。如图2所示,可以预先采集样本视频对虚拟形象合成引擎进行训练。示例性地,可以预先采集0.5小时、1.5小时等的样本视频,在此不做限定。在此基础上,可以通过人工智能技术,对真人声音和面部表情(如,唇部动作、脸颊动作等)进行深度学习,建立音频特征与面部表情之间的关联性,从而得到虚拟形象合成引擎。当然,为了进一步提升虚拟形象合成引擎的适用性,还可以在采集得到样本视频之后,基于样本视频提取出时间同步的动作指令(如,样本视频中主播伸手、比手势等动作),并在对真人声音和面部表情进行深度学习的同时,进一步通过人工智能技术,对动作指令和肢体动作进行深度学习,建立动作特征与肢体动作之间的关联性,以进一步完善虚拟形象合成引擎。在此基础上,在实际应用过程中,可以通过语音合成接口对交互文本进行语音合成,得到合成语音,并对合成语音的声音信息进行提取,与虚拟形象合成引擎相结合,从而驱动面部表情(如图2中表情序列)。此外,在存在与合成语音时间同步的动作指令的情况下,还可以将前述声音信息与动作指令一同与虚拟形象合成引擎相结合,从而在驱动面部表情的同时,还可以驱动肢体动作。在此基础上,可以将上述图像序列与合成语音在时间轴上对齐,实现两通道(即图像通道和语音通道)并轨,进而生成画面与声音“言行一致”的视频流。
在一个实施场景中,上述面部表情可以结合三维人脸重建。三维人脸重建是通过人脸进行显示建模,参数化表示人脸姿态、ID、表情等,唇形的控制生成可以通过参数控制表情动作实现。需要说明的是,由于都是参数化建模,人脸姿态、ID、表情等这些信息可以使用参数进行控制,还可以进一步对人脸进行编辑操作,如美颜、瘦脸、换装等。此外,由于是三维人脸,故其表现形式和应用场景,还可以结合CG技术,拓展至AR/VR等领域。
在一个实施场景中,交互终端在向交互应答服务器传递数据时,还可以同时传递交互终端所在展区/展馆的展览主题,从而语音合成接口可以进一步结合展览主题进行语音合成,使得最终得到的合成语音与展览主题相匹配。示例性地,在展览主题与儿童相关时,合成语音的声线可以为活泼的、具有童趣的;或者,在展览主题与历史相关时,合成语音的声线可以为低沉的、厚重的;或者,在展览主题与日常生活相关时,合成语音的声线可以是轻松的、平实的。其他情况可以以此类推,在此不再一一举例。
在一个实施场景中,作为一种可能的实施方式,相较于Face2face只能将源视频的人脸表情迁移至目标视频的人脸,而不能控制头部姿态,本公开实施例中,通过音频驱动,直接由语音预测3D人脸的每个顶点位置,或者,由语音驱动3D人脸骨骼动画;或者,也可以使用一组参数来控制3D人脸产生不同表情。即定义音素到视素的对应关系,视素可以包括但不限于唇形形状。该对应关系表示发出不同音素所对应的唇形形状。故此,通过语音驱动技术实现人脸的动作驱动,能够实现虚拟形象的表情自然、流畅。
(7)带圈数字11表示交互应答服务器向交互终端推送视频流,或者交互终端主动从交互应答服务器拉取视频流。基于此,交互终端可以播放视频流,以实现在文博场景通过虚拟形象与用户进行交互,提升交互趣味性。
(8)带圈数字12表示在虚拟形象交互系统测试时通过向测试驱动接口输入测试数据(如,前述语音数据、人脸图像、手势图像等),且在测试数据为视频数据时,测试驱动接口拆分为音频数据和图像数据在虚拟形象交互系统中流转。也就是说,音频数据将送入语音唤醒接口,并继续经语音识别接口等处理,而图像数据将送入人脸唤醒接口、手势识别接口等,并继续经交互决策接口等处理,具体流转过程可以参阅前述带圈数字1至带圈数字11的相关描述,以实现测试虚拟形象交互系统。
在一个实施场景中,在对虚拟形象交互系统进行测试时,需对语音识别、语音合成、虚拟形象合成、交互成功率、响应时间等基本指标进行测试。此外,还可以对语音唤醒成功率、人脸唤醒成功率、语音打断成功率以及手势识别等指标进行测试。
在一个具体的实施场景中,对于指标“语音识别”来说,需满足如下要求:(1)支持近场音频处理、(2)支持命令字识别、连续语音识别中至少一种、(3)在低噪声环境中,语音识别句识别正确率大于等于85%、(4)在高噪声环境中,语音识别句识别正确率大于等于80%。需要说明的是,低噪声环境、高噪声环境具体可以根据实际应用情况进行设置,示例性地,高噪声环境具体可以指存在声音强度在60dB以上噪声的环境,而低噪声环境具体可以指噪声的声音强度在45dB以下的环境。
在一个具体的实施场景中,对于指标“语音合成”来说,需满足如下要求:(1)支持音量、语速、语调调节、(2)语音合成的平均句合成正确率大于等于90%,同时针对文博场景的专业术语合成正确率大于等于95%、(3)归一化正确率大于等于85%,且归一化正确率检测以下两个维度:符号读法(即正确读出符号的发音,且符号是指非本语种文字)以及数字读法(即正确读出数字的发音)。需要说明的是,句合成正确率用于评价系统语音播报的正确率,句合成正确率的计算公式为:句合成正确率=语音播报正确的语音条数/总语音条件*100%。此外,归一化正确率的计算公式为:数字和符号发音正确的语音条件/总语音条数*100%。
在一个具体的实施场景中,对于指标“虚拟形象合成”来说,需满足以下要求:(1)支持2D和3D虚拟形象、(2)视频流合成实时率大于等于1.0。需要说明的是,视频流合成实时率的计算公式为:视频流合成实时率=n条视频流合成实时率之和/n。其中,单条视频流合成实时率的计算公式为:P=L/T,且P表示单条视频流合成实时率,L表示单条合成语音时长,T表示单条视频流合成时长。
在一个具体的实施场景中,对于指标“交互成功率”来说,由于要求虚拟形象交互系统在交互过程中,交互目的能够在既定交互轮次完成,可以判定本轮交互成功,反之,判定交互失败,故交互成功率的计算公式可以表示为:P=S/(S+F)*100%。其中,P表示交互成功率,S表示交互成功次数,F表示交互失败次数。此外,对于指标“交互成功率”来说,需满足要求:大于等于90%。
在一个具体的实施场景中,对于指标“响应时间”来说,虚拟形象在交互过程中,从用户停止说话,到虚拟形象开始回答,即为虚拟形象全流程响应时间。对于指标“响应时间”来说,需满足要求:小于等于2秒。响应时间的计算公式可以表示为:T=TE-TS。其中,T表示响应时间,TS表示用户停止说话时刻,TE表示虚拟形象开始应答时刻。
在一个具体的实施场景中,对于指标“语音唤醒成功率”来说,需满足如下要求:在文博场景低噪声环境下,语音唤醒成功率大于等于90%,误唤醒频次小于等于0.2次/小时,在文博场景高噪声环境下,语音唤醒成功率大于等于80%,误唤醒频次小于等于0.1次/小时。
在一个具体的实施场景中,对于指标“人脸唤醒成功率”来说,需满足如下要求:人脸唤醒成功率大于等于90%。
在一个具体的实施场景中,对于指标“语音打断成功率”来说,虚拟形象交互系统在交互过程中支持打断,打断后虚拟形象停止说话,唇形恢复到闭合状态。对于指标“语音打断成功率”来说,需满足如下要求:语音打断成功率大于等于90%。此外,语音打断成功率的计算公式可以表示为:P=n/N。其中,P表示语音打断成功率,N表示执行打断的总次数,n表示正确被打断的次数。
在一个具体的实施场景中,对于指标“手势识别”来说,虚拟形象交互系统需支持静态手势(如,点赞手势等)和动态手势(如,挥手手势等)。
在一个实施场景中,在对虚拟形象交互系统进行测试之前,需做好测试准备,测试准备包括但不限于:测试数据、测试环境等。
在一个具体的实施场景中,考虑到虚拟形象交互系统的输入数据包括语音和图像两部分。语音层面影响识别效果的因素包括但不限于:环境噪声、发音人年龄、性别、声音大小、语速、口齿清晰度等,图像层面影响识别效果的因素包括但不限于:人物数量、手势移动速度、手势复杂度、图像清晰度等,图像层面影响人脸唤醒效果的因素包括但不限于:人物性别、年龄、有无静态干扰物(如,图像或者面具模型等)、人脸角度、光照、有无遮挡、妆容、图像分辨率等。此外,仍以文博场景为例,为了使得系统测试尽可能地贴近虚拟形象交互系统在实际文博场景的真实情况,上述数据可以在实际文博场景实地采集。
在一个具体的实施场景中,仍以文博场景为例,语音数据可以覆盖被测文博相关的基础术语,并从待测文博词汇覆盖、业务覆盖、音节覆盖,以及常用性角度进行设计,具体可以包含命令词、连续语句等。
在一个具体的实施场景中,语音数据的数据集合具体可以满足如下要求:(1)句识别率测试至少由男女各20名发音人进行录制,语音唤醒功能测试至少由50名发音人进行录制;(2)环境噪声录制至少包括文博环境实际噪声,如博物馆展厅入口处的机器噪声、游客在室内交谈等环境噪声等,在此不做限定。音频采样设备需满足的要求,可以参阅表1,在此不再详细描述。
表1音频采样设备要求
Figure BDA0004008972120000061
如前所述,在系统测试时,可以将测试数据输入至文本交互终端的测试驱动接口。此外,作为一种可能的实施方式,也可以采用回放设备将测试数据回放,且回放设备置于交互终端之前,以模拟真实交互场景。回放设备需满足的要求,可以参阅表2,在此不再详细描述。
表2回放设备要求
Figure BDA0004008972120000062
在一个具体的实施场景中,仍以文博场景为例,图像数据的数据集合可以要求测试人员在真实文博场景中,如博物馆室内外、文化博览园区等,在此不做限定。此外,还可以要求环境光照在200lx~1500lx。
进一步地,对于人脸唤醒测试,可以要求至少由男女各5名进行录制,且可以具体包含如下要素,每种类型不少于20张:
(1)人体运动模糊,可以利用图像处理软件(如,photoshop)对全图添加模糊处理;
(2)水平转动角、俯仰角、倾斜角;
(3)五官遮挡;
(4)化妆和P图;
(5)光照;
(6)表情;
(7)画面中人距离摄像头0.5~3米,画面中的人数控制在1~4人。
与人脸唤醒测试类似地,对于手势识别测试而言,也可以要求至少由男女各5名进行录制,且可以具体包含如下要素,每种类型不少于20张:
(1)提供至少一个手势集合,每个手势集合至少包含五个手势;
(2)提供每一个手势的名称和操作描述,每个手势的开始和结束,测试人员都需要恢复相同的身体姿态;
(3)每个手势集合中任意两个手势之间的相似程度应尽可能低,以便区分;
(4)手势集合中的手势简单易行;
(5)画面中的人距离摄像头0.5~3米,画面中的人数控制在1~4人,主测试人员站在画面中间位置。
此外,图像采集设备需满足的要求,可以参阅表3,在此不再详细描述。
表3图像采集设备要求
Figure BDA0004008972120000071
在一个具体的实施场景中,如前所述,虚拟形象交互系统的输入数据包括语音和图像两部分,相应地,虚拟形象交互系统也应确保具有语音采样功能和图像采集功能。具体地,交互终端可以集成有麦克风、摄像头等。
在一个具体的实施场景中,为了确保系统数据传输可靠性和稳定性,虚拟形象交互系统应满足上行带宽不低于100Kbps、下行带宽不低于9Mbps,且应保持稳定的连接状态。
在一个具体的实施场景中,在测试虚拟形象交互系统过程中,近场拾音距离可以低于1米。
在一个具体的实施场景中,测试场景可以采用低噪声环境和高噪声环境。此外,还可以要求噪音频谱保持稳定且噪音与命令词无类似发音,具体可以参阅表4。
表4典型噪声环境的录音场景
Figure BDA0004008972120000072
在一个具体的实施场景中,可以采用提前录制或采集的方式,制作测试数据。进一步地,可以根据不同测试项划分多个测试数据集。在实际测试时,可以根据需要选择测试数据集。请结合参阅表5所示的语音测试数据集的类型和要求,测试数据应满足如下要求:
(1)语音数据至少2000条,其中,各类语音数据的数量要求如下:
(a)A类的数量不小于总量的70%;
(b)B类的数量不小于总量的15%,不大于总量的20%;
(c)C类的数量不小于总量的5%,不大于总量的10%;
(d)D类为可选,数量不大于总量的5%。
(2)各种语音种类发音人,不少于30名;
(3)3~5秒时长的语音数据占总量的80%以上;
(4)语音数据包括中文、西文和数字等,测试方可根据系统任务和应用场景设定测试内容,每条语音数据可以满足如下要求:
(a)信噪比大于等于20dB;
(b)新噪声小于5dB;
(c)在16bit量化比特下,采样点数值不小于10000;
(d)语音输入大于每秒4字。
表5语音测试数据集的类型和要求
Figure BDA0004008972120000081
在一个具体的实施场景中,请结合参阅表6所示的人脸唤醒测试数据集的类型和要求。仍以文博场景为例,人脸唤醒测试数据集可以在文博真实环境下采集。其中,各项要求可以参阅如下:
(1)测试对象男女比例为1:1;
(2)年龄在16~60岁占80%,年龄在16岁以下占10%,年龄在60岁以上占10%;
(3)静态图像:为测试对象正常状态下采集的照片,照片无边框且清晰;
(4)角度:人脸的水平转动角、俯仰角和倾斜角不大于±20度;
(5)光照:强光、逆光、暗光、正常光;
(6)完整度:人脸轮廓和五官清晰,无浓妆,图像脸部区域无编辑修改性处理,眼镜框不遮挡眼睛,镜片无色无反光;
(7)纸质:哑粉、光铜、磨砂、光面相纸、硬板纸、普通A4;
(8)分辨率:纸质照片的打印分辨率不小于300dpi;
(9)裁剪方式:对于纸质照片,每个对象的两组照片中,一组保留完整纸张,一组裁剪出人脸,每组4张照片分别进行不同程度的抠取五官处理,其中无抠取1张,其余3张随机抠取五官;
(10)动态图像:录制视频由用户正常状态下录制(需与善意呈现用户测试背景相同),测试对象的人脸在视频区域内,录制帧率不小于25fps,时长不小于10秒,分辨率不小于1080p。其中,人脸的俯仰角和倾斜角不大于±30度。此外,合成视频可以参考录制视频要求,可以采用采集的静态图像进行合成;
(11)面具:采用塑料、纸质或硅胶等材料制作的可穿戴人脸三维面具,尺寸与活体人脸一致;
(12)头模:采用泡沫、树脂等材料制作的头模,尺寸与活体人脸一致。
表6人脸唤醒测试数据集的类型和要求
Figure BDA0004008972120000082
Figure BDA0004008972120000091
在一个具体的实施场景中,请结合参阅表7所示的手势识别测试数据集的类型和要求。
表7手势识别测试数据集的类型和要求
Figure BDA0004008972120000092
在一个实施场景中,对于测试项“语音识别测试”来说,可以将虚拟形象交互系统调至待机状态,将语音识别测试语料输入至测试驱动接口,或者在近场距离使用回放设备播放语音识别测试语料,记录如下内容:
(1)低噪声环境下,虚拟形象交互系统的识别结果,并与正确结果进行比对,统计识别成功次数和识别失败次数,确定句识别率;
(2)高噪声环境下,虚拟形象交互系统的识别结果,并与正确结果进行比对,统计识别成功次数和识别失败次数,确定句识别率。
在一个实施场景中,对于测试项“语音合成测试”来说,可以记录如下内容:
(1)句合成正确率:按照测试语音集合,逐条输入至虚拟形象交互系统,统计播音播报正确的语音条数,并根据前述相关描述计算句合成正确率;
(2)归一化正确率:按照测试语音集合,逐条输入测试语音至虚拟形象交互系统,统计数字和符号均发音正确的语音条数,并根据前述相关描述计算归一化正确率。
在一个实施场景中,对于测试项“虚拟形象合成”来说,可以针对每条语音合成的包含虚拟形象的视频流,统计视频流从首帧到尾帧的合成时间和每条语音的长度,并根据前述相关描述计算每条视频流的合成实时率。
在一个实施场景中,对于测试项“交互成功率”来说,可以根据前述测试结果对虚拟形象交互系统的交互功能进行统计分析,并按照前述相关描述计算交互成功率。
在一个实施场景中,对于测试项“响应时间”来说,可以根据前述测试结果对虚拟形象交互系统的交互时间进行统计分析,并按照前述相关描述计算响应时间。
在一个实施场景中,对于测试项“语音唤醒测试”来说,其具体包括唤醒正确率和误唤醒频次,分别如下所示:
(1)唤醒正确率:将虚拟形象交互系统调至待机状态,使用回放设备在近场距离播放唤醒测试语料,当声压计为55dB时,分别统计低噪声环境和高噪声环境下虚拟形象语音唤醒正确率,或者,将唤醒测试语料输入至前述测试驱动接口,分别统计低噪声环境和高噪声环境下虚拟形象语音唤醒正确率。
(2)误唤醒频次:将虚拟形象交互系统调至待命状态若干时长(如,6小时),记录低噪声环境以及高噪声环境下虚拟形象的误唤醒频次。
在一个实施场景中,对于测试项“人脸唤醒测试”来说,可以将虚拟形象交互系统调至待机状态,要求测试人员人脸无任何遮挡地走入交互终端的视频捕捉范围内并停留,然后走出该视频捕捉范围内并停留,或者将真实环境下录制/采集的人脸唤醒测试视频输入至前述测试驱动接口。在此基础上,统计人脸唤醒成功率。
在一个实施场景中,对于测试项“手势识别测试”来说,可以将虚拟形象交互系统调至待机状态,测试人员走入交互终端的视频捕捉范围内并停留,完成静态手势、动态手势等测试,或者将真实环境下录制/采集的手势识别测试视频输入至前述测试驱动接口。在此基础上,手势识别成功率。
在一个实施场景中,对于测试项“语音打断成功率”来说,可以将虚拟形象交互系统调至待机状态,可以在近场距离使用回放设备播放语音识别测试语料,当声压计为55dB时,唤醒交互终端,在与虚拟形象交互过程中,回放设备播放语音测试语料,记录虚拟形象打断结果,或者可以将语音识别测试语料输入至测试驱动接口,唤醒交互终端,在与虚拟形象交互过程中,输入新的语音测试语料至测试驱动接口,记录虚拟形象打断结果。在此基础上,可以按照前述相关描述计算语音打断成功率。
需要说明的是,上述仅仅是虚拟形象交互系统在测试过程中,涉及到测试环境、测试数据的一些可能实施方式,并不因此而限定测试过程中具体设置方式,具体可以在上述系统框架范围内根据实际需要进行设置。下面分别就交互终端和交互应答服务器两个角度,分别说明本申请文博虚拟形象交互过程。
请参阅图3,图3是本申请虚拟形象交互方法一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S31:获取并播放第一视频流。
本公开实施例中,交互应答服务器响应于用户通过交互终端发出的第一交互请求生成第一交互决策,并基于第一交互决策通过虚拟形象合成引擎实时合成第一视频流,交互应答服务器基于第一交互请求中关键词为第一视频流标记表征打断后是否续播的标志符。
在一个实施场景中,请结合参阅图1,用户可以通过手势、语音等方式与交互终端进行交互,以发出第一交互请求。示例性地,以用户通过语音与交互终端进行交互为例,用户可以对交互终端说出诸如“文博展品A在什么地方”、“请介绍一下文博展品B”等语音,以发出第一交互请求;或者,以用户通过手势与交互终端进行交互为例,用户可以对交互终端做出诸如“提高音量”、“降低音量”等手势,以发出第一交互请求。其他情况可以以此类推,在此不再一一举例。
在一个实施场景中,用户在通过交互终端发出第一交互请求之后,交互应答服务器可以处理该第一交互请求,生成第一交互决策。请继续结合参阅图1,在用户通过语音发出第一交互请求之后,交互应答服务器可以通过语音识别接口对语音数据进行识别,得到识别文本,并通过语义理解接口对识别文本进行分析,得到交互意图,并结合交互意图通过交互决策接口与信息处理服务器进行查询,得到第一交互决策;或者,在用户通过手势发出第一交互请求之后,交互终端中手势识别接口可以对该手势进行识别,得到识别结果,交互决策接口可以直接通过与信息处理服务器进行查询结合该手势的识别结果,得到第一交互决策。需要说明的是,如前述公开实施例所述,信息处理服务器中可以设有信息系统,其包括但不限于:文博展品相关信息、系统用户相关信息等,在此不做限定。
在一个具体的实施场景中,以用户通过语音发出第一交互请求“请介绍一下文博展品B”为例,语音识别接口可以对该语音数据进行识别,得到识别文本“请介绍一下文博展品B”,语义理解接口可以对该识别文本进行分析,得到交互意图“了解文博展品B”。在此基础上,交互决策接口可以从信息处理服务器中信息系统查询“文博展品B”的相关知识,并将获取到的相关知识整理为交互文本(即待合成文本)“文博展品B制于XX年间,是……”,语音合成接口可以基于上述交互文本进行语音合成,得到合成语音,并由形象合成接口通过虚拟形象合成引擎受上述合成语音驱动,合成得到第一视频流。其他情况可以以此类推,在此不再一一举例。
在一个具体的实施场景中,以用户通过手势发出第一交互请求“结束交互”为例,经手势识别接口识别确定该手势的识别结果为“结束交互”,将其送入交互决策接口,由于识别结果中不包含于文博相关信息,故可以直接由交互决策接口处理,而不再与信息处理服务器交互。交互决策接口响应于识别结果为“结束交互”,可以直接作用于形象合成接口,终止形象合成接口的形象合成。其他情况可以以此类推,在此不再一一举例。
需要说明的是,虚拟形象合成引擎的工作原理,可以参阅前述公开实施例中关于虚拟形象合成引擎的相关描述,在此不再赘述。
在一个实施场景中,交互应答服务器在实时合成第一视频流的同时,还可以向交互终端进行推流,或者交互终端可在交互应答服务器实时合成第一视频流的同时主动从交互应答服务器拉流,以获取第一视频流,并播放获取到的第一视频流,从而实现通过虚拟形象与用户进行交互。
在一个实施场景中,可以预先维护一个关系映射集合,关系映射集合中可以包含词汇与打断后是否续播之间的映射关系。示例性地,词汇“结束”映射于“打断后不再续播”、词汇“终止”映射于“打断后不再续播”、词汇“展品”映射于“打断后续播”、词汇“在哪里”映射于“打断后续播”、词汇“好的”映射于“打断后不再续播”。需要说明的是,上述举例仅仅是实际应用过程中,可能的设置方式,并不因此而限定实际设置方式。
在一个具体的实施场景中,在用户通过语音交互时,可以通过语音识别接口将语音数据识别到的识别文本进行检测的方式,确定第一交互请求中是否含有上述关系映射集合中所定义的词汇,并在检测到词汇的情况下,进一步根据关系映射集合中该词汇映射的是“打断后不再续播”还是“打断后续播”,为第一视频流标记表征打断后是否续播的标志符。示例性地,仍以第一交互请求“请介绍一下文博展品B”为例,由于经语音识别接口对其识别文本“请介绍一下文博展品B”中检测到词汇“展品”,且该词汇在关系映射集合中映射于“打断后续播”,则可以为基于该第一交互请求而生成的第一视频流标记表征打断后续播的标志符,如1、TRUE等;或者,以第一交互请求“好的,我知道了”为例,由于经语音识别接口对其识别文本“好的,我知道了”中检测到词汇“好的”,且该词汇在关系映射集合中映射于“打断后不再续播”,则可以为基于该第一交互请求而生成的第一视频流标记表征打断后不再续播的标志符,如0、FALSE等。其他情况可以以此类推,在此不再一一举例。
在一个具体的实施场景中,在用户通过手势交互时,可以通过手势识别接口所得到的识别结果中搜索是否存在上述关系映射集合中所定义的词汇,并在检测到词汇的情况下,进一步根据关系映射集合中该词汇映射的是“打断后不再续播”还是“打断后续播”,为第一视频流标记表征打断后是否续播的标志符。示例性地,以“结束交互”手势为例,由于在识别结果中检测到词汇“结束”,且该词汇映射于“打断后不再续播”,故可以为基于该第一交互请求而生成的第一视频流标记表征打断后不再续播的标志符,如0、FALSE等。其他情况可以以此类推,在此不再一一举例。
在一个实施场景中,在实际应用场景中,交互终端可能处于休眠状态,为了使其唤醒以便进行交互,可以通过人脸、语音中至少一种将其从休眠状态切换至唤醒状态。示例性地,用户可以对交互终端说出包含唤醒词的语音,从而使得交互终端响应于该唤醒词,切换至唤醒状态;或者,用户可以预先在交互终端注册人脸,并在后续应用时,只需站在交互终端的图像采集区域,交互终端即可响应于注册人脸,切换至唤醒状态。
在一个实施场景中,区别于前述唤醒方式,响应于注册人脸、唤醒词中任一者均未检测到但检测到超出时长阈值的视线凝视,也可以切换至唤醒状态。上述方式,在注册人脸、唤醒词中任一者均未检测到的情况下,若检测到超出时长阈值的视线凝视,则切换至唤醒状态,从而能够免于通过说出唤醒词或通过注册人脸使交互终端切换至唤醒状态,进而能够大大提升唤醒的便利性,特别是在首次使用交互终端,或者不熟悉交互终端等情况下,能够大大降低用户的学习成本,降低使用难度。
在一个具体的实施场景中,时长阈值可以根据应用需要进行设置。示例性地,为了降低误唤醒概率,可以将时长阈值设置地稍大一些,如可以设置为5秒、10秒等;或者,为了提升交互速度,可以将时长阈值设置地小一些,如可以设置为2秒、3秒等,在此不做限定。
在一个具体的实施场景中,为了进一步照顾到首次使用交互终端,或者不熟悉交互终端等情况,在切换至唤醒状态之后,可以进一步输出用于指导用户交互的提示信息。示例性地,该提示信息可以是预置于交互终端的预置视频流,预置视频流中虚拟形象可以演示交互终端的操作方式。
在一个具体的实施场景中,为了进一步降低误唤醒概率,还可以在视线凝视的基础上,进一步结合唇部检测,来确定是否切换至唤醒状态。具体地,可以检测对用户的拍摄视频中各帧图像的唇部关键词,并基于图像中唇部关键点,确定图像中的上下唇距离,基于此再统计上下唇距离大于距离阈值的图像帧数,从而在帧数大于数量阈值的情况下,切换至唤醒状态,而在帧数不大于数量阈值的情况下,维持休眠状态。需要说明的是,唇部关键点可以参阅诸如ASM(即Active Shape Model)、CPR(Cascaded Pose Regression,级联姿势回归)、Face++等方式进行检测,具体过程可以参阅上述检测方式的技术细节,在此不再赘述。上述举例阈值可以根据实际应用场景进行设置,如在对检测精度要求的情况下,距离阈值可以设置地适当大一些,或者,子对检测精度要求相对宽松的情况下,距离阈值可以设置地适当小一些,在此不做限定。此外,为了进一步提升检测精度,还可以基于各帧图像中上下唇距离进行数值统计(如取平均值、取加权值、取中位数等),确定距离阈值。进一步地,在统计帧数时,可以根据帧率设置一个统计时长,并在该统计时长内的各帧图像之中进行统计。示例性地,在帧率为25fps的情况下,统计时长可以设置为2秒、3秒等。进一步地,在帧率为25fps且统计时长设置为2秒的情况下,数量阈值可以设置为20帧。其他情况可以以此类推,在此不做限定。上述方式,在切换至唤醒状态之前,先检测对用户的拍摄视频中各帧图像的唇部关键点,并基于图像中唇部关键点,确定图像中的上下唇距离,从而统计上下唇距离大于距离阈值的图像帧数,进而在帧数大于数量阈值的情况下,切换至唤醒状态,而在帧数不大于数量阈值的情况下,维持休眠状态,故能够进一步降低误唤醒概率。
需要说明的是,在交互终端切换至唤醒状态之后,用户即可通过语音、手势等方式与交互终端进行交互。
步骤S32:响应于用户在播放第一视频流时的第二交互请求,发送打断合成请求和第二交互请求至交互应答服务器。
在一个实施场景中,与前述第一交互请求类似地,用户也可以在交互终端播放第一视频流过程中,通过语音、手势等方式与交互终端进行交互。不同之处在于,此时视为用户有更为急迫的交互需求,从而可以生成对上述第一视频流的打断合成请求,并将该打断合成请求与第二交互请求一并发送至交互应答服务器。具体来说,该打断合成请求可以直接发送至交互应答服务器中的交互决策接口处理,而第二交互请求与前述第一交互请求类似的,可以根据第二交互请求的不同发出方式,由不同接口来负责处理,具体可以参阅前述第一交互请求相关描述,在此不再赘述。
在一个具体的实施场景中,以第一交互请求“请介绍一下文博展品B”为例,如前所述,交互终端可以获取关于“文博展品B”相关介绍的第一视频流并进行播放,在播放到“在公元XXX年,枢密使XX……”时,用户有惑于历史人物“枢密使XX”,可以通过语音发出第二交互请求“枢密使XX是谁啊?”,与此同时交互终端生成打断合成请求,并将第二交互请求和打断合成请求发送至交互应答服务器。其他情况可以以此类推,在此不再一一举例。
在一个具体的实施场景中,仍以第一交互请求“请介绍一下文博展品B”为例,如前所述,交互终端可以获取关于“文博展品B”相关介绍的第一视频流并进行播放,在播放到“在公元XXX年,枢密使XX……”时,用户突然暂停对“文博展品B”的介绍,回到首页了解一下展馆的闭馆时间,可以通过手势发出第二交互请求“回到首页”,与此同时交互终端生成打断合成请求,并将第二交互请求和打断合成请求发送至交互应答服务器。其他情况可以以此类推,在此不再一一举例。
本公开实施例中,交互应答服务器响应于打断合成请求而暂停合成第一视频流,并响应于第二交互请求实时合成第二视频流,以及在第二视频流合成完毕之后,基于标志符,确定是否从第一交互决策的打断位置开始继续合成新的第一视频流。
在一个实施场景中,在暂停合成第一视频流的情况下,可以响应于第二交互请求实时合成第二视频流,具体可以参阅前述第一视频流的合成过程,在此不再赘述。
在一个实施场景中,如前所述,打断合成请求可以直接由交互决策接口处理。交互决策接口可以响应于打断合成请求,直接命令形象合成接口暂停合成第一视频流。在此基础上,在第二视频流合成完毕之后,可以继续基于前述标志符,确定是否从第一交互决策的打断位置开始继续合成新的第一视频流。
在一个具体的实施场景中,在标志符表征打断后续播的情况下,可以确定从第一交互决策的打断位置开始继续合成新的第一视频流;反之,在标志符表征打断后不续播的情况下,可以确定不再继续合成新的第一视频流。
在一个具体的实施场景中,如前所述,第一交互决策可以包括交互文本,虚拟形象合成引擎可以基于由交互文本进行语音合成所得到的合成语音进行合成操作。在此情况下,可以获取打断位置在合成语音中对应的时间信息。具体来说,可以获取打断位置在合成语音中对应音频帧的帧号,从而可以基于合成语音的帧率和帧号,得到时间信息。例如,可以基于帧率得到相邻帧之间的间隔时长,再将帧号乘以该间隔时长,得到时间信息。仍以在播放到“在公元XXX年,枢密使XX……”时,用户有惑于历史人物“枢密使XX”,可以通过语音发出第二交互请求“枢密使XX是谁啊?”为例,打断位置对应音频帧的帧号为N,且帧率为25fps,则相邻音频帧之间的时间间隔为40ms,故时间信息为N*40ms。其他情况可以以此类推,在此不再一一举例。与此同时,可以获取第一视频流中虚拟形象在打断位置的音素信息。仍以前述情况为例,打断位置的音素信息即为“枢密使XX”的末尾音素。在此基础上,可以结合时间信息和音素信息,确定交互文本中未被第一视频流中虚拟形象播报过的文本内容。仍以前述情况为例,交互文本中未被第一视频流中虚拟形象播报过的文本内容即为“在公元XXX年,枢密使XX”之后的文本信息。故此,可以进一步通过虚拟形象合成引擎,基于上述文本内容在合成语音中的对应部分继续合成操作,得到新的第一视频流。上述方式,第一交互决策包括交互文本,虚拟形象合成引擎基于交互文本的合成语音进行合成操作,在基于标志符确定合成新的第一视频流的情况下,可以获取打断位置在合成语音中对应的时间信息,并获取第一视频流中虚拟形象在打断位置的音素信息,从而基于时间信息和音素信息,确定交互文本中未被第一视频流中虚拟形象播报过的文本内容,进而通过虚拟形象合成引擎,基于文本内容在合成语音中的对应部分继续合成操作,得到新的第一视频流,故能够提升打断续播的自然度。
在一个具体的实施场景中,区别于前述实施方式,第一交互决策可以包括时间同步的动作指令和交互文本。动作指令用于指导合成的第一视频流中虚拟形象的肢体等动作,具体可以包括但不限于伸手、摆手等,在此不做限定。需要说明的是,时间同步是指交互文本中文字对应有动作指令。示例性地,前述交互文本“文博展品B制于XX年间,是……”中文字“文本展品B”可以对应有动作指令“伸手”,并在合成第一视频流时,在第一视频流播报到上述文字“文博展品B”时,对应于虚拟形象的手部上方可以嵌入文博展品B的三维模型,具体可以参阅下述公开实施例中相关描述,在此暂不赘述。也就是说,虚拟形象合成引擎基于交互文本的合成语音和动作指令进行合成操作。则在基于标志符确定合成新的第一视频流的情况下,可以获取打断位置在合成语音中对应的时间信息,并获取第一视频流中虚拟形象在打断位置的音素信息,再基于时间信息和音素信息,确定交互文本中未被第一视频流中虚拟形象播报过的文本内容。具体可以参阅前述相关描述,在此不再赘述。在此基础上,可以基于虚拟形象合成引擎,基于文本内容在合成语音中的对应部分和动作指令在打断位置之后的残余部分,合成得到新的第一视频流。仍以在播放到“在公元XXX年,枢密使XX……”时,用户有惑于历史人物“枢密使XX”,可以通过语音发出第二交互请求“枢密使XX是谁啊?”为例,交互文本中未被第一视频流中虚拟形象播报过的文本内容即为“在公元XXX年,枢密使XX”之后的文本信息,动作指令在打断位置之后的残余部分即为在“在公元XXX年,枢密使XX”之后的动作指令。其他情况可以以此类推,在此不再一一举例。上述方式,第一交互决策包括时间同步的交互文本和动作指令,虚拟形象合成引擎基于交互文本的合成语音和动作指令进行合成操作,在基于标志符确定继续合成新的第一视频流的情况下,获取打断位置在合成语音中对应的时间信息,并获取第一视频流中虚拟形象在打断位置的音素信息,从而基于时间信息和音素信息,确定交互文本中未被第一视频流中虚拟形象播报过的文本内容,进而通过虚拟形象合成引擎,基于文本内容在合成语音中的对应部分和动作指令在打断位置之后的残余部分,合成得到新的第一视频流,能够提升打断续播的自然度。
步骤S33:获取并播放交互应答服务器新合成的视频流。
具体地,新合成的视频流至少包括上述第二视频流。此外,在标志符表征打断后续播的情况下,新合成的视频流还可以进一步包括在第二视频流之后新的第一视频流;反之,在标志符表征打断后不再续播的情况下,新合成的视频流仅包括上述第二视频流。
在一个实施场景中,交互终端还可以显示文博展品的三维模型。在此情况下,交互终端还可以响应于识别到切换手势,切换显示下一文博展品的三维模型。示例性地,交互终端可以维护有文博展品列表,文博展品列表可以按序排列中展馆中展出的各个文博展品。示例性地,可以按照年代先后顺序排列,或者,也可以按照热度高度顺序排列,在此不做限定。上述方式,响应于识别到切换手势,切换显示下一文博展品的三维模型,能够提升交互体验。
在一个实施场景中,交互终端还可以响应于在显示文博展品的三维模型时识别到点赞手势,为当前显示的文博展品累加预设分值,且各个文博展品的三维模型基于各自累加分值的大小顺序依次显示。需要说明的是,点赞手势可以包括但不限于竖大拇指等,在此不做限定。预设分值可以设置为10分、20分等,在此不做限定。上述方式,响应于在显示文博展品的三维模型时识别到点赞手势,为当前显示的文博展品累加预设分值,从而各个文博展品的三维模型基于各自累加分值的大小顺序依次显示,故能够通过识别点赞手势,收集各个文博展品的热度信息,从而支持按照用户热度高低顺序,依次显示各个文博展品的三维模型,有助于使用户尽可能地了解到热门展品,提升参观效率。
在一个实施场景中,如前所述,用户可以通过人脸预先注册虚拟形象交互系统。在此情况下,可以响应于检测到注册人脸,获取注册人脸所属用户的参观路线,并基于当前检测到注册人脸的交互终端所在位置和参观路线,确定所属用户下一参观的文博展品,以及显示第三视频流,且第三视频流由交互应答服务器基于下一参观的文博展品通过虚拟形象合成引擎实时合成得到,第三视频流中虚拟形象指示下一参观的文博展品的位置信息。需要说明的是,各个展馆/展区都可以设置交互终端。示例性地,可以在各个展馆/展区的门口设置交互终端;或者,在展馆/展区较大的情况下,还可以进一步在展馆/展区中设置交互终端,在此不做限定。上述方式,响应于检测到注册人脸,获取注册人脸所属用户的参观路线,并基于当前检测到注册人脸的交互终端所在位置和参观路线,确定所属用户下一参观的文博展品,以及显示第三视频流,且第三视频流由交互应答服务器基于下一参观的文博展品通过虚拟形象合成引擎实时合成得到,第三视频流中虚拟形象指示下一参观的文博展品的位置信息,故仅需在各个展馆/展区分别设置文博交互系统,即可实现多终端互联,以指导用户参观文博展品,有助于提升智能化程度。
在一个具体的实施场景中,可以通过参观路线和当前检测到注册人脸的交互终端所在位置,确定下一参观的文博展品。例如,在展馆/展区的门口设置交互终端的情况下,以参观路线“文博展品A→文博展品B→文博展品C→文博展品D→文博展品E”为例,在当前检测到注册人脸的交互终端所在展馆/展区甲陈列有文博展品B的情况下,可以确定下一参观的文博展品是文博展品B,则第三视频流中虚拟形象指示下一参观的文博展品的位置信息可以为“指向展馆/展区甲”;或者,在当前检测到注册人脸的交互终端所在展馆/展区乙未陈列上述参观路线中任一文博展品的情况下,可以基于上述参观路线中“文博展品A”已经参观(如,可以根据之前已经指示过该文博展品的位置信息),且其他文博展品均未参观,确定下一参观的文博展品为文博展品B,并结合信息系统中记录的“文博展品B陈列于展馆/展区甲”,可以确定第三视频流中虚拟形象指示下一参观的文博展品的位置信息为“指向展馆/展区甲”。其他情况可以以此类推,在此不再一一举例。
在一个具体的实施场景中,第三视频流的合成过程,可以参阅前述第一视频流的合成操作,在此不再赘述。
在一个具体的实施场景中,交互终端还可以响应于注册人脸所属用户的查看请求,显示所属用户在其参观路线上的参观进度,并显示第四视频流,且第四视频流由交互应答服务器基于参观进度通过虚拟形象合成引擎实时合成得到,第四视频流中虚拟形象的表情、动作、语音中至少一者与参观进度相匹配。示例性地,用户可以通过触摸交互终端的相关菜单,来显示参观路线,或者,交互终端也可以在检测到注册人脸的情况下,先查询是否生成有该注册人脸所属用户的参观路线,若有则可以显示其参观路线,在此不做限定。此外,在参观进度为50%时,第四视频流中虚拟形象的表情、动作、语音中至少一者可以是“鼓舞”的;类似地,在参观进度为90%时,第四视频流中虚拟形象的表情、动作、语音中至少一者可以是“开心”的;类似地,在参观进度为100%时,第四视频流中虚拟形象的表情、动作、语音中至少一者可以是“兴奋”的。当然,上述仅仅是实际应用过程中可能的实施方式,并不因此而限定实际应用过程中设置与参观进度相匹配的虚拟形象的具体方式。上述方式,响应于注册人脸所属用户的查看请求,显示所属用户在其参观路线上的参观进度,并显示第四视频流,且第四视频流由交互应答服务器基于参观进度通过虚拟形象合成引擎实时合成得到,第四视频流中虚拟形象的表情、动作、语音中至少一者与参观进度相匹配,故能够支持在参观过程中打卡,并在参观过程中通过虚拟形象对用户报以支持,有助于提升用户参观体验。
在一个具体的实施场景中,用户可以与交互终端就用户的文博喜好开展交互问答,即通过问答形式获悉用户所喜好的场景、展品和感兴趣的文博知识等。在此基础上,可以响应于结束与注册人脸所属用户之间关于文博喜好的交互问答,基于交互问答,生成参观路线,并显示第五视频流,且第五视频流由交互问答服务器基于参观路线中首个参观的文博展品通过虚拟形象合成引擎实时合成得到,第五视频流中虚拟形象指示首个参观的文博展品的位置信息。需要说明的是,可以从交互问答中提取用户感兴趣的文博展品,并根据这些文博展品距离用户远近、参观人数多少等要素进行排序,生成参观路线。上述方式,在交互问答结束之后,基于交互问答,生成参观路线,并显示第五视频流,且第五视频流由交互应答服务器基于参观路线中首个参观的文博展品通过虚拟形象合成引擎实时合成得到,第五视频流中虚拟形象指示首个参观的文博展品的位置信息,故能够通过交互问答的形式,指引用户参观,能够在尽可能地节省用户参观时间的前提下,进一步提升用户参观的满足感,有助于提升用户参观体验。
需要说明的是,本申请公开实施例中,文博展品包括但不限于实物展品,也可以包括以摄影、投影等方式显示的非实物展品。例如,某些展品易受曝光、湿气等环境影响发生变质,而在展馆/展区仅陈列其非实物展品。
上述方案,获取并播放第一视频流,且交互应答服务器响应于用户通过交互终端发出的第一交互请求生成第一交互决策,并基于第一交互决策通过虚拟形象合成引擎实时合成第一视频流,交互应答服务器基于第一交互请求中关键词为第一视频流标记表征打断后是否续播的标志符。在此基础上,响应于用户在播放第一视频流时第二交互请求,发送打断合成请求和第二交互请求至交互应答服务器,且交互应答服务器响应于打断合成请求而暂停合成第一视频流,并响应于第二交互请求实时合成第二视频流,以及在第二视频流合成完毕之后,基于标志符,确定是否从第一交互决策的打断位置开始继续合成新的第一视频流,从而获取并播放交互应答服务器新合成的视频流,进而能够在交互应答服务器实时合成视频流以及交互终端播放该视频流的过程中,受到用户新的交互请求而打断合成,并先实时合成新的视频流,再根据是否续播的标志符确定是否从打断位置开始继续合成原视频流,故此能够大大提升文博虚拟形象交互的自然度。
需要说明的是,上述虚拟形象交互方法实施例中步骤具体可以由图1所示的虚拟形象交互系统中交互终端执行,交互终端的具体构成,可以参阅前述虚拟形象交互系统中相关描述,在此不再赘述。
请参阅图4,图4是本申请虚拟形象交互方法另一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S41:基于交互终端发出的第一交互请求,生成第一交互决策,并基于第一交互决策通过虚拟形象合成引擎合成第一视频流,以及基于第一交互请求中关键词为第一视频流标记表征打断后是否续播的标志符。
本公开实施例中,交互终端获取并播放第一视频流,具体可以参阅前述公开实施例中相关描述,在此不再赘述。
步骤S42:响应于交互终端发出的打断合成请求,暂停合成第一视频流,并响应于交互终端发出的第二交互请求,实时合成第二视频流,以及在第二视频流合成完毕之后,基于标志符,确定是否从第一交互决策的打断位置开始继续合成新的第一视频流。
本公开实施例中,打断合成请求由交互终端响应于用户在播放第一视频流时的第二交互请求而发送,且交互终端获取并播放新合成的视频流,具体可以参阅前述公开实施例中相关描述,在此不再赘述。
在一个实施场景中,如前述公开实施例所述,第一交互决策包括时间同步的交互文本和动作指令,虚拟形象合成引擎基于交互文本的合成语音和动作指令进行合成操作,则在基于标志符确定合成新的第一视频流的情况下,可以获取打断位置在合成语音中对应的时间信息,并获取第一视频流中虚拟形象在打断位置的音素信息,从而基于时间信息和音素信息,确定交互文本中未被第一视频流中虚拟形象播报过的文本内容,进而通过虚拟形象合成引擎,基于文本内容在合成语音中的对应部分和动作指令在打断位置之后的残余部分,合成得到新的第一视频流。具体可以参阅前述公开实施例中相关描述,在此不再赘述。
在一个实施场景中,如前所述,第一交互决策至少包括交互文本,则在基于第一交互决策通过虚拟形象合成引擎合成第一视频流的过程中,可以响应于关键词在信息处理服务器中的信息系统检索到匹配的文博展品,将匹配的文博展品作为目标展品,并基于交互文本进行语音合成,得到合成语音,以及在通过虚拟形象合成引擎对合成语音进行形象合成所得到的第一视频流中,嵌入目标展品的三维模型。上述方式,若基于关键词在信息系统中检索到匹配的文博展品,则可以在合成到的第一视频流中嵌入该文博展品的三维模型,从而能够通过三维模型更加方便地与进行信息交互,进而能够提升用户参观体验。
在一个具体的实施场景中,仍以第一交互请求“请介绍一下文博展品B”为例,由于关键词“文博展品B”在信息系统检索到匹配的文博展品,故可以在虚拟形象合成引擎所合成的第一视频流中,嵌入“文博展品B”的三维模型。其他情况可以以此类推,在此不再一一举例。
在一个具体的实施场景中,如前所述,第一交互决策还可以包括与交互文本时间同步的动作指令,则确定将匹配的文博展品作为目标展品之前或之后,还可以进一步确定第一交互决策还包括与交互文本时间同步的动作指令至少包括伸手动作。在此基础上,在通过虚拟形象合成引擎对合成语音进行形象合成所得到的第一视频流中,嵌入目标展品的三维模型时,可以通过虚拟形象合成引擎对合成语音、动作指令和目标展品的三维模型进行形象合成,得到第一视频流,即第一视频流中的虚拟形象触发伸手动作来展示目标展品的三维模型。更为具体地,伸手动作可以在交互文本首次出现与目标展品相匹配的关键词时触发。具体可以参阅前述公开实施例中相关描述,在此不再赘述。上述方式,在将匹配的文博展品作为目标展品之前或之后,进一步确定第一交互决策还包括与交互文本时间同步的动作指令至少包括伸手动作,且在通过虚拟形象合成引擎对合成语音进行形象合成所得到的第一视频流中,嵌入目标展品的三维模型过程中,通过虚拟形象合成引擎对合成语音、动作指令和目标展品的三维模型进行形象合成,得到第一视频流,且第一视频流中的虚拟形象触发伸手动作展示目标展品的三维模型,能够提升虚拟形象的自然度。
需要说明的是,本公开实施例仅对在前述公开实施例中未详细展开部分进行描述,其他相同或相似之处,可以参阅前述公开实施例,在此不再赘述。
上述方案,基于交互终端发出的第一交互请求,生成第一交互决策,并基于第一交互决策通过虚拟形象合成引擎合成第一视频流,以及基于第一交互请求中关键词为第一视频流标记表征打断后是否续播的标志符,且交互终端获取并播放第一视频流,响应于文本交互终端发出的打断合成请求,暂停合成第一视频流,并响应于文本交互终端发出的第二交互请求,实时合成第二视频流,以及在第二视频流合成完毕之后,基于标志符,确定是否从第一交互决策的打断位置开始继续合成新的第一视频流,且打断合成请求由交互终端响应于用户在播放第一视频流时第二交互请求而发送,且交互终端获取并播放新合成的视频流,故能够在交互应答服务器实时合成视频流以及交互终端播放该视频流的过程中,受到用户新的交互请求而打断合成,并先实时合成新的视频流,再根据是否续播的标志符确定是否从打断位置开始继续合成原视频流,故此能够大大提升文博虚拟形象交互的自然度。
需要说明的是,上述虚拟形象交互方法实施例中步骤具体可以由图1所示的虚拟形象交互系统中交互应答服务器执行,交互应答服务器的具体构成,可以参阅前述虚拟形象交互系统中相关描述,在此不再赘述。
请参阅图5,图5是本申请虚拟形象交互方法又一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S501:交互终端向API网关的API接入层发送鉴权请求。
具体地,在实际应用过程中,作为一种可能的实施方式,交互应答服务器与交互终端之间还可以设置有API网关,用于负责鉴权、转发等。API接入层可以使用Nginx+keepalive架构,以实现高可用负载均衡,以及主备节点保证服务间的故障切换和转移。
步骤S502:API网关的API接入层通过鉴权服务接口对鉴权请求进行处理,得到鉴权结果,并通过API网关的API接入层,将鉴权结果返回交互终端。
具体地,鉴权服务接口对鉴权请求进行处理,以鉴别交互终端是否可以接入交互应答服务器,从而提升虚拟形象交互系统的安全性。
步骤S503:交互终端响应于鉴权结果包括鉴权成功,向API网关的API接入层发送初始化请求。
步骤S504:API网关的鉴权服务接口对初始化请求进行鉴权校验。
步骤S505:API网关的鉴权服务接口向API接入层返回校验结果。
步骤S506:API接入层在校验结果包括校验失败的情况下,返回错误信息。
步骤S507:API接入层在校验结果包括校验成功的情况下,返回视频地址。
具体地,视频地址即为后续从交互应答服务器拉取视频流的网络地址。也就是说,交互终端可以根据该视频地址,拉取视频流并播放,从而实现用户通过交互终端与虚拟形象进行交互。
步骤S508:交互终端向API网关的API接入层上传交互请求。
具体地,交互请求可以包括但不限于:文本、音频等,在此不做限定。具体可以参阅前述公开实施例中相关描述,在此不再赘述。
步骤S509:API接入层响应于交互请求包括音频,直接将音频传输至交互应答服务器的语音识别接口进行识别,得到识别文本。
具体可以参阅前述公开实施例中相关描述,在此不再赘述。
步骤S510:语音识别接口将识别文本送入语义理解接口进行分析,交互意图,并基于交互意图得到决策文本。
具体地,如前述公开实施例所述,在得到交互意图之后,交互应答服务器中的交互决策接口可以与信息处理服务器中的信息系统进行交互,得到决策文本。具体过程可以参阅前述公开实施例中相关描述,在此不再赘述。
步骤S511:API接入层响应于交互请求包括待分析的文本,直接将待分析的文本传输至交互应答服务器的语义理解接口进行分析,得到交互意图,并基于交互意图得到决策文本。
具体可以参阅前述公开实施例中相关描述,在此不再赘述。
步骤S512:语义理解接口将决策文本传输至语音合成接口进行语音合成,得到合成语音。
具体可以参阅前述公开实施例中相关描述,在此不再赘述。
步骤S513:API接入层响应于交互请求包括待合成的文本,直接将待合成的文本传输至交互应答服务器的语音合成接口进行语音合成,得到合成语音。
具体可以参阅前述公开实施例中相关描述,在此不再赘述。
步骤S514:语音合成接口将合成语音输入形象合成接口,合成得到视频流。
具体可以参阅前述公开实施例中相关描述,在此不再赘述。
步骤S515:形象合成接口将视频流传输至推流服务接口。
需要说明的是,交互终端通过前述视频地址,从推流服务接口获取合成得到的视频流,并在交互终端进行播放。
步骤S516:交互终端向API接入层发出新的交互请求。
具体可以参阅前述公开实施例中相关描述,在此不再赘述。
步骤S517:API接入层生成打断合成请求,并发送至形象合成接口,以使形象合成接口暂停合成操作。
具体地,交互应答服务器可以先暂停正在进行的合成操作,并响应于新的交互请求进行合成操作,直至合成完成。在此基础上,若前述步骤S514所合成的视频流标记的标志符表征打断后续播,则可以从打断位置开始重新执行合成操作,反之则可以不再重新执行合成操作。需要说明的是,关于标志符的具体含义,可以参阅前述公开实施例中相关描述,在此不再赘述。
步骤S518:文本交互终端通过视频地址从推流服务接口拉取视频流。
具体可以参阅前述公开实施例中相关描述,在此不再赘述。
需要说明的是,只要交互终端与交互应答服务器之间的网络连接不断开,上述步骤S508至步骤S518可以循环执行。也就是说,只要用户通过交互终端发出交互请求或在视频流合成过程中发出新的交互请求,就可以重新执行上述相关步骤。
步骤S519:交互终端向API接入层发送断开请求。
具体地,在交互终端需要送检等场景下,交互终端需要断开与交互应答服务器之间的网络连接,此时为尽可能地降低对系统影响,交互终端可以通过发送断开请求,以与交互应答服务器顺利地断开连接。
步骤S520:API接入层转发断开请求至形象合成接口,以使形象合成接口停止合成操作。
具体地,在接收到断开请求之后,交互应答服务器中的形象合成接口可以停止合成操作。
步骤S521:形象合成接口向推流服务接口发送停止推流指令。
具体地,形象合成接口在停止合成操作之后,即可命令推流服务接口停止推流,此时交互终端也不再从交互应答服务器获取视频流,从而交互终端与交互应答服务器之间此时将不再存在数据交互。
上述方案,能够在交互应答服务器实时合成视频流以及交互终端播放该视频流的过程中,受到用户新的交互请求而打断合成,并先实时合成新的视频流,再根据是否续播的标志符确定是否从打断位置开始继续合成原视频流,故此能够大大提升文博虚拟形象交互的自然度。
需要说明的是,上述虚拟形象交互方法实施例中步骤具体可以由图1所示的虚拟形象交互系统中交互终端、交互应答服务器和信息处理服务器协作执行,交互终端、交互应答服务器和信息处理服务器的具体构成,可以参阅前述虚拟形象交互系统中相关描述,在此不再赘述。
请参阅图6,图6是本申请虚拟形象交互装置60一实施例的框架示意图。虚拟形象交互装置60包括:第一获取模块61、请求发送模块62和第二获取模块63,第一获取模块61,用于获取并播放第一视频流;其中,交互应答服务器响应于用户通过交互终端发出的第一交互请求生成第一交互决策,并基于第一交互决策通过虚拟形象合成引擎实时合成第一视频流,交互应答服务器基于第一交互请求中关键词为第一视频流标记表征打断后是否续播的标志符;请求发送模块62,用于响应于用户在播放第一视频流时的第二交互请求,发送打断合成请求和第二交互请求至交互应答服务器;其中,交互应答服务器响应于打断合成请求而暂停合成第一视频流,并响应于第二交互请求实时合成第二视频流,以及在第二视频流合成完毕之后,基于标志符,确定是否从第一交互决策的打断位置开始继续合成新的第一视频流;第二获取模块63,用于获取并播放交互应答服务器新合成的视频流。
上述方案,由于虚拟形象交互装置60能够实现上述虚拟形象交互方法实施例中步骤,故能够在交互应答服务器实时合成视频流以及交互终端播放该视频流的过程中,受到用户新的交互请求而打断合成,并先实时合成新的视频流,再根据是否续播的标志符确定是否从打断位置开始继续合成原视频流,故此能够大大提升文博虚拟形象交互的自然度。
在一些公开实施例中,虚拟形象交互装置60还包括状态切换模块,用于响应于注册人脸、唤醒词中任一者均未检测到但检测到超出时长阈值的视线凝视,切换至唤醒状态;虚拟形象交互装置60还包括指导提示模块,用于输出用于指导用户交互的提示信息。
因此,在注册人脸、唤醒词中任一者均未检测到的情况下,若检测到超出时长阈值的视线凝视,则切换至唤醒状态,从而能够免于通过说出唤醒词或通过注册人脸使交互终端切换至唤醒状态,进而能够大大提升唤醒的便利性,特别是在首次使用交互终端,或者不熟悉交互终端等情况下,能够大大降低用户的学习成本,降低使用难度。
在一些公开实施例中,虚拟形象交互装置60还包括关键点检测模块,用于检测对用户的拍摄视频中各帧图像的唇部关键点;虚拟形象交互装置60还包括距离确定模块,用于基于图像中唇部关键点,确定图像中的上下唇距离;虚拟形象交互装置60还包括帧数统计模块,用于统计上下唇距离大于距离阈值的图像帧数;其中,在帧数大于数量阈值的情况下,切换至唤醒状态,在帧数不大于数量阈值的情况下,维持休眠状态。
因此,在切换至唤醒状态之前,先检测对用户的拍摄视频中各帧图像的唇部关键点,并基于图像中唇部关键点,确定图像中的上下唇距离,从而统计上下唇距离大于距离阈值的图像帧数,进而在帧数大于数量阈值的情况下,切换至唤醒状态,而在帧数不大于数量阈值的情况下,维持休眠状态,故能够进一步降低误唤醒概率。
在一些公开实施例中,距离阈值基于各帧图像中上下唇距离进行数值统计得到。
因此,基于各帧图像中上下唇距离进行数值统计得到距离阈值,能够进一步提升检测精度。
在一些公开实施例中,虚拟形象交互装置60还包括切换显示模块,用于响应于识别到切换手势,切换显示下一个文博展品的三维模型。
因此,上述方式,响应于识别到切换手势,切换显示下一文博展品的三维模型,能够提升交互体验。
在一些公开实施例中,虚拟形象交互装置60还包括分值累加模块,用于响应于在显示文博展品的三维模型时识别到点赞手势,为当前显示的文博展品累加预设分值;其中,各个文博展品的三维模型基于各自累加分值的大小顺序依次显示。
因此,响应于在显示文博展品的三维模型时识别到点赞手势,为当前显示的文博展品累加预设分值,从而各个文博展品的三维模型基于各自累加分值的大小顺序依次显示,故能够通过识别点赞手势,收集各个文博展品的热度信息,从而支持按照用户热度高低顺序,依次显示各个文博展品的三维模型,有助于使用户尽可能地了解到热门展品,提升参观效率。
在一些公开实施例中,虚拟形象交互装置60还包括路线获取模块,用于响应于检测到注册人脸,获取注册人脸所属用户的参观路线;虚拟形象交互装置60还包括展品确定模块,用于基于当前检测到注册人脸的交互终端所在位置和参观路线,确定所属用户下一参观的文博展品;虚拟形象交互装置60还包括第三获取模块,用于显示第三视频流;其中,第三视频流由交互应答服务器基于下一参观的文博展品通过虚拟形象合成引擎实时合成得到,且第三视频流中虚拟形象指示下一参观的文博展品的位置信息。
因此,响应于检测到注册人脸,获取注册人脸所属用户的参观路线,并基于当前检测到注册人脸的交互终端所在位置和参观路线,确定所属用户下一参观的文博展品,以及显示第三视频流,且第三视频流由交互应答服务器基于下一参观的文博展品通过虚拟形象合成引擎实时合成得到,第三视频流中虚拟形象指示下一参观的文博展品的位置信息,故仅需在各个展馆/展区分别设置文博交互系统,即可实现多终端互联,以指导用户参观文博展品,有助于提升智能化程度。
在一些公开实施例中,虚拟形象交互装置60还包括进度显示模块,用于响应于注册人脸所属用户的查看请求,显示所属用户在其参观路线上的参观进度;虚拟形象交互装置60还包括第四获取模块,用于显示第四视频流;其中,第四视频流由交互应答服务器基于参观进度通过虚拟形象合成引擎实时合成得到,且第四视频流中虚拟形象的表情、动作、语音中至少一者与参观进度相匹配。
因此,响应于注册人脸所属用户的查看请求,显示所属用户在其参观路线上的参观进度,并显示第四视频流,且第四视频流由交互应答服务器基于参观进度通过虚拟形象合成引擎实时合成得到,第四视频流中虚拟形象的表情、动作、语音中至少一者与参观进度相匹配,故能够支持在参观过程中打卡,并在参观过程中通过虚拟形象对用户报以支持,有助于提升用户参观体验。
在一些公开实施例中,虚拟形象交互装置60还包括路线生成模块,用于响应于结束与注册人脸所属用户之间关于文博喜好的交互问答,基于交互问答,生成参观路线;虚拟形象交互装置60还包括第五获取模块,用于显示第五视频流;其中,第五视频流由交互应答服务器基于参观路线中首个参观的文博展品通过虚拟形象合成引擎实时合成得到,且第五视频流中虚拟形象指示首个参观的文博展品的位置信息。
因此,在交互问答结束之后,基于交互问答,生成参观路线,并显示第五视频流,且第五视频流由交互应答服务器基于参观路线中首个参观的文博展品通过虚拟形象合成引擎实时合成得到,第五视频流中虚拟形象指示首个参观的文博展品的位置信息,故能够通过交互问答的形式,指引用户参观,能够在尽可能地节省用户参观时间的前提下,进一步提升用户参观的满足感,有助于提升用户参观体验。
请参阅图7,图7是本申请虚拟形象交互装置70一实施例的框架示意图。虚拟形象交互装置70包括:请求处理模块71和打断续播模块72,请求处理模块71,用于基于交互终端发出的第一交互请求,生成第一交互决策,并基于第一交互决策通过虚拟形象合成引擎合成第一视频流,以及基于第一交互请求中关键词为第一视频流标记表征打断后是否续播的标志符;其中,交互终端获取并播放第一视频流;打断续播模块72,用于响应于交互终端发出的打断合成请求,暂停合成第一视频流,并响应于交互终端发出的第二交互请求,实时合成第二视频流,以及在第二视频流合成完毕之后,基于标志符,确定是否从第一交互决策的打断位置开始继续合成新的第一视频流;其中,打断合成请求由交互终端响应于用户在播放第一视频流时的第二交互请求而发送,且交互终端获取并播放新合成的视频流。
上述方案,由于虚拟形象交互装置70能够实现上述虚拟形象交互方法实施例中的步骤,故能够在交互应答服务器实时合成视频流以及交互终端播放该视频流的过程中,受到用户新的交互请求而打断合成,并先实时合成新的视频流,再根据是否续播的标志符确定是否从打断位置开始继续合成原视频流,故此能够大大提升文博虚拟形象交互的自然度。
在一些公开实施例中,第一交互决策包括时间同步的交互文本和动作指令,虚拟形象合成引擎基于交互文本的合成语音和动作指令进行合成操作,打断续播模块72包括时间信息获取子模块,用于获取打断位置在合成语音中对应的时间信息;打断续播模块72包括音素信息获取子模块,用于获取第一视频流中虚拟形象在打断位置的音素信息;打断续播模块72包括文本内容确定子模块,用于基于时间信息和音素信息,确定交互文本中未被第一视频流中虚拟形象播报过的文本内容;打断续播模块72包括视频流合成子模块,用于通过虚拟形象合成引擎,基于文本内容在合成语音中的对应部分和动作指令在打断位置之后的残余部分,合成得到新的第一视频流。
因此,第一交互决策包括交互文本,虚拟形象合成引擎基于交互文本的合成语音进行合成操作,在基于标志符确定合成新的第一视频流的情况下,可以获取打断位置在合成语音中对应的时间信息,并获取第一视频流中虚拟形象在打断位置的音素信息,从而基于时间信息和音素信息,确定交互文本中未被第一视频流中虚拟形象播报过的文本内容,进而通过虚拟形象合成引擎,基于文本内容在合成语音中的对应部分继续合成操作,得到新的第一视频流,故能够提升打断续播的自然度。
在一些公开实施例中,时间信息获取子模块包括帧号获取单元,用于获取打断位置在合成语音中对应音频帧的帧号;时间信息获取子模块包括时间分析单元,用于基于合成语音的帧率和帧号,得到时间信息。
因此,通过获取打断位置在合成语音中对应音频帧的帧号,再基于合成语音的帧率和帧号,得到时间信息,能够提升时间信息的准确性。
在一些公开实施例中,第一交互决策至少包括交互文本,请求处理模块71包括目标确定子模块,用于响应于基于关键词在信息处理服务器中的信息系统检索到匹配的文博展品,将匹配的文博展品作为目标展品;请求处理模块71包括语音合成子模块,用于基于交互文本进行语音合成,得到合成语音;请求处理模块71包括模型嵌入子模块,用于在通过虚拟形象合成引擎对合成语音进行形象合成所得到的第一视频流中,嵌入目标展品的三维模型。
因此,若基于关键词在信息系统中检索到匹配的文博展品,则可以在合成到的第一视频流中嵌入该文博展品的三维模型,从而能够通过三维模型更加方便地与进行信息交互,进而能够提升用户参观体验。
在一些公开实施例中,请求处理模块71包括动作确定子模块,用于确定第一交互决策还包括与交互文本时间同步的动作指令至少包括伸手动作;模型嵌入子模块具体用于通过虚拟形象合成引擎对合成语音、动作指令和目标展品的三维模型进行形象合成,得到第一视频流;其中,第一视频流中的虚拟形象触发伸手动作展示目标展品的三维模型。
因此,在将匹配的文博展品作为目标展品之前或之后,进一步确定第一交互决策还包括与交互文本时间同步的动作指令至少包括伸手动作,且在通过虚拟形象合成引擎对合成语音进行形象合成所得到的第一视频流中,嵌入目标展品的三维模型过程中,通过虚拟形象合成引擎对合成语音、动作指令和目标展品的三维模型进行形象合成,得到第一视频流,且第一视频流中的虚拟形象触发伸手动作展示目标展品的三维模型,能够提升虚拟形象的自然度。
请参阅图8,图8是本申请交互终端80一实施例的框架示意图。交互终端80包括通信电路81、存储器82和处理器83,通信电路81、存储器82分别耦接至处理器83,存储器82中存储有程序指令,处理器83用于执行程序指令以实现上述虚拟形象交互方法实施例中的步骤。具体地,交互终端80可以包括但不限于:台式计算机、笔记本电脑、平板电脑、自助终端等等,在此不做限定。
具体而言,处理器83用于控制其自身以及通信电路81、存储器82以实现上述虚拟形象交互方法实施例中的步骤。处理器83还可以称为CPU(Central Processing Unit,中央处理单元)。处理器83可能是一种集成电路芯片,具有信号的处理能力。处理器83还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器83可以由集成电路芯片共同实现。
上述方案,由于交互终端80能够实现上述虚拟形象交互方法实施例中步骤,故能够在交互应答服务器实时合成视频流以及交互终端播放该视频流的过程中,受到用户新的交互请求而打断合成,并先实时合成新的视频流,再根据是否续播的标志符确定是否从打断位置开始继续合成原视频流,故此能够大大提升文博虚拟形象交互的自然度。
请参阅图9,图9是本申请交互应答服务器90一实施例的框架示意图。交互应答服务器90包括通信电路91、存储器92和处理器93,通信电路91、存储器92分别耦接至处理器93,存储器92中存储有程序指令,处理器93用于执行程序指令以实现上述虚拟形象交互方法实施例中的步骤。
具体而言,处理器93用于控制其自身以及通信电路91、存储器92以实现上述虚拟形象交互方法实施例中的步骤。处理器93还可以称为CPU(Central Processing Unit,中央处理单元)。处理器93可能是一种集成电路芯片,具有信号的处理能力。处理器93还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器93可以由集成电路芯片共同实现。
上述方案,由于交互应答服务器90能够实现上述虚拟形象交互方法实施例中步骤,故能够在交互应答服务器实时合成视频流以及交互终端播放该视频流的过程中,受到用户新的交互请求而打断合成,并先实时合成新的视频流,再根据是否续播的标志符确定是否从打断位置开始继续合成原视频流,故此能够大大提升文博虚拟形象交互的自然度。
请参阅图10,图10是本申请交互系统测试方法一实施例的流程示意图。需要说明的是,本公开实施例中交互系统测试方法应用于上述虚拟形象交互系统,具体可以参阅前述公开实施例中相关描述。具体而言,可以包括如下步骤:
步骤S101:输入测试数据至虚拟形象交互系统中交互终端的测试驱动接口。
本公开实施例中,在测试数据为视频数据时被测试驱动接口拆分为音频数据和图像数据。需要说明的是,关于测试驱动接口以及测试数据,具体可以参阅前述公开实施例中相关描述,在此不再赘述。
步骤S102:获取虚拟形象交互系统在基于测试数据进行交互响应过程中与测试指标相关的采样数据。
在一个实施场景中,在测试指标包括交互成功率的情况下,可以获取交互成功次数和总交互次数。
在一个实施场景中,在测试指标包括视频流合成实时率的情况下,可以获取合成各条视频流时分别所用合成语音时长与视频流合成时长。
在一个实施场景中,在测试指标包括响应时间的情况下,可以获取音频数据中表征用户停止说话的时刻与合成视频流中虚拟形象开始应答时刻。
需要说明的是,上述举例仅仅是实际应用过程中几种可能的实施方式,在测试指标设置为其他指标的情况下,可以以此类推,在此不再一一举例。
步骤S103:基于所述采样数据,得到所述虚拟形象交互系统在所述测试指标的测试值。
在一个实施场景中,在测试指标包括交互成功率的情况下,可以获取交互成功次数在总交互次数中占比,作为交互成功率的测试值。
在一个实施场景中,在测试指标包括视频流合成实时率的情况下,可以获取合成视频流时所用合成语音时长与视频流合成时长之比,作为单条视频流合成实时率,并获取多条视频流合成实时率的平均值,作为视频流合成实时率的测试值。
在一个实施场景中,在测试指标包括响应时间的情况下,可以将音频数据中表征用户停止说话的时刻与合成视频流中虚拟形象开始应答时刻之差,作为响应时间的测试值。
需要说明的是,上述举例仅仅是实际应用过程中几种可能的实施方式,在测试指标设置为其他指标的情况下,可以以此类推,在此不再一一举例。
步骤S104:基于虚拟形象交互系统在各个测试指标上的测试值,确定虚拟形象交互系统是否测试通过。
示例性地,若虚拟形象交互系统在各个测试指标上的测试值,均表明测试通过,则可以确定虚拟形象交互系统测试通过。反之,若存在至少一个测试指标上的测试值,表明测试未通过,则可以确定虚拟形象交互系统测试未通过。
上述方案,由于本公开实施例中交互系统测试方法应用于上述虚拟形象交互系统,且在测试时输入测试数据至虚拟形象交互系统中交互终端的测试驱动接口,在测试数据为视频数据时被测试驱动接口拆分为音频数据和图像数据,再获取虚拟形象交互系统在基于测试数据进行交互响应过程中与测试指标相关的采样数据,然后基于所述采样数据,得到所述虚拟形象交互系统在所述测试指标的测试值,最终基于虚拟形象交互系统在各个测试指标上的测试值,确定虚拟形象交互系统是否测试通过,能够有助于提升测试精度。
请参阅图11,图11是本申请交互系统测试装置1100一实施例的流程示意图。需要说明的是,本公开实施例中交互系统测试装置1100应用于上述虚拟形象交互系统,具体可以参阅前述公开实施例中相关描述。具体而言,可以包括输入模块1101、获取模块1102、计算模块1103和确定模块1104,输入模块1101,用于输入测试数据至所述虚拟形象交互系统中所述交互终端的测试驱动接口;其中,在所述测试数据为视频数据时被所述测试驱动接口拆分为音频数据和图像数据;获取模块1102,用于获取所述虚拟形象交互系统在基于所述测试数据进行交互响应过程中与测试指标相关的采样数据;计算模块1103,用于基于所述采样数据,得到所述虚拟形象交互系统在所述测试指标的测试值;确定模块1104,用于基于所述虚拟形象交互系统在各个测试指标上的测试值,确定所述虚拟形象交互系统是否测试通过。
上述方案,由于本公开实施例中交互系统测试装置1100应用于上述虚拟形象交互系统,且在测试时输入测试数据至虚拟形象交互系统中交互终端的测试驱动接口,在测试数据为视频数据时被测试驱动接口拆分为音频数据和图像数据,再获取虚拟形象交互系统在基于测试数据进行交互响应过程中与测试指标相关的采样数据,然后基于所述采样数据,得到所述虚拟形象交互系统在所述测试指标的测试值,最终基于虚拟形象交互系统在各个测试指标上的测试值,确定虚拟形象交互系统是否测试通过,能够有助于提升测试精度。
在一些公开实施例中,在所述测试指标包括交互成功率的情况下,获取模块1102包括第一获取子模块,用于获取交互成功次数和总交互次数;计算模块1103包括第一计算子模块,用于获取所述交互成功次数在所述总交互次数中占比,作为所述交互成功率的测试值。
在一些公开实施例中,在所述测试指标包括视频流合成实时率的情况下,获取模块1102包括第二获取子模块,用于获取合成各条视频流时分别所用合成语音时长与视频流合成时长;计算模块1103包括第二计算子模块,用于对于每条视频流,获取合成视频流时所用合成语音时长与视频流合成时长之比,作为单条视频流合成实时率,以及获取多条视频流合成实时率的平均值,作为所述视频流合成实时率的测试值。
在一些公开实施例中,在测试指标包括响应时间的情况下,获取模块1102包括第三获取子模块,用于获取所述音频数据中表征用户停止说话的时刻与合成视频流中虚拟形象开始应答时刻;计算模块1103包括第三计算子模块,用于获取表征用户停止说话的时刻与合成视频流中虚拟形象开始应答时刻之差,作为所述响应时间的测试值。
请参阅图12,图12是本申请计算机可读存储介质1200一实施例的框架示意图。计算机可读存储介质1200存储有能够被处理器运行的程序指令1201,程序指令1201用于实现上述任一虚拟形象交互方法实施例中的步骤。
上述方案,计算机可读存储介质1200能够实现上述任一虚拟形象交互方法实施例中的步骤,故能够在交互应答服务器实时合成视频流以及交互终端播放该视频流的过程中,受到用户新的交互请求而打断合成,并先实时合成新的视频流,再根据是否续播的标志符确定是否从打断位置开始继续合成原视频流,故此能够大大提升文博虚拟形象交互的自然度。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
若本申请技术方案涉及个人信息,应用本申请技术方案的产品在处理个人信息前,已明确告知个人信息处理规则,并取得个人自主同意。若本申请技术方案涉及敏感个人信息,应用本申请技术方案的产品在处理敏感个人信息前,已取得个人单独同意,并且同时满足“明示同意”的要求。例如,在摄像头等个人信息采集装置处,设置明确显著的标识告知已进入个人信息采集范围,将会对个人信息进行采集,若个人自愿进入采集范围即视为同意对其个人信息进行采集;或者在个人信息处理的装置上,利用明显的标识/信息告知个人信息处理规则的情况下,通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权;其中,个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。

Claims (28)

1.一种虚拟形象交互系统,其特征在于,包括文博交互终端、交互应答服务器和信息处理服务器,所述交互终端与所述交互应答服务器通信连接,所述交互应答服务器与所述信息处理服务器通信连接,所述信息处理服务器中设有信息系统,用于供所述交互应答服务器在交互决策时检索信息,其中:
所述交互终端,用于与用户交互获取用户的输入数据,以及从所述交互应答服务器获取并播放视频流,所述输入数据包括语音数据、图像数据中至少一者;
所述交互应答服务器,用于基于所述输入数据进行交互决策,得到交互决策结果,且所述交互决策结果包括时间同步的交互文本和动作指令,并基于所述交互文本的合成语音和所述动作指令,合成视频流,且视频流中虚拟形象嘴部动作在时序上与所述合成语音相一致,肢体动作在时序上与所述动作指令相一致。
2.根据权利要求1所述的系统,其特征在于,所述交互终端设有测试驱动接口,用于在所述虚拟形象交互系统测试时输入测试数据,且在所述测试数据为视频数据时拆分为音频数据和图像数据。
3.根据权利要求1或2所述的系统,其特征在于,所述交互应答服务器包括:
语音识别接口,用于对所述语音数据进行识别,得到识别文本;
语义理解接口,用于对所述识别文本进行理解,得到交互意图;
交互决策接口,用于至少基于所述交互意图在信息处理服务器中信息系统中检索得到响应信息,并基于所述响应信息进行决策处理,饿到所述交互决策结果;
语音合成接口,用于基于所述交互决策结果中交互文本进行语音合成,得到合成语音;
形象合成接口,集成有虚拟形象合成引擎,用于受所述合成语音、动作指令中至少一者的驱动,而生成视频流。
4.根据权利要求3所述的系统,其特征在于,所述语音合成接口还用于从所述交互终端获取所述交互终端所在展区/展馆的展览主题,并基于所述展览主题和所述交互决策结果中交互文本进行语音合成,得到与所述展览主题匹配的合成语音。
5.根据权利要求1或2所述的系统,其特征在于,所述交互终端包括:
语音唤醒接口,用于在检测到所述语音数据中包含唤醒词时,唤醒所述交互终端,以在所述交互终端展示虚拟形象,并与用户进行交互;和/或,
人脸唤醒接口,用于在检测到注册人脸时,唤醒所述交互终端,以在所述交互终端展示虚拟形象,并与用户进行交互;和/或,
手势识别接口,用于识别手势类型,并为所述交互应答服务器中的交互决策接口提供识别到的手势类别,以供所述交互决策接口基于交互意图和手势类别向所述信息处理服务器中所述信息系统检索得到响应信息。
6.一种交互系统测试方法,其特征在于,用于对权利要求1至5任一项所述的虚拟形象交互系统进行测试,所述方法包括:
输入测试数据至所述虚拟形象交互系统中所述交互终端的测试驱动接口;其中,在所述测试数据为视频数据时被所述测试驱动接口拆分为音频数据和图像数据;
获取所述虚拟形象交互系统在基于所述测试数据进行交互响应过程中与测试指标相关的采样数据;
基于所述采样数据,得到所述虚拟形象交互系统在所述测试指标的测试值;
基于所述虚拟形象交互系统在各个测试指标上的测试值,确定所述虚拟形象交互系统是否测试通过。
7.根据权利要求6所述的方法,其特征在于,在所述测试指标包括交互成功率的情况下,所述获取所述虚拟形象交互系统在基于所述测试数据进行交互响应过程中与测试指标相关的采样数据,包括:
获取交互成功次数和总交互次数;
所述基于所述采样数据,得到所述虚拟形象交互系统在所述测试指标的测试值,包括:
获取所述交互成功次数在所述总交互次数中占比,作为所述交互成功率的测试值。
8.根据权利要求6所述的方法,其特征在于,在所述测试指标包括视频流合成实时率的情况下,所述获取所述虚拟形象交互系统在基于所述测试数据进行交互响应过程中与测试指标相关的采样数据,包括:
获取合成各条视频流时分别所用合成语音时长与视频流合成时长;
所述基于所述采样数据,得到所述虚拟形象交互系统在所述测试指标的测试值,包括:
对于每条视频流,获取合成视频流时所用合成语音时长与视频流合成时长之比,作为单条视频流合成实时率;
获取多条视频流合成实时率的平均值,作为所述视频流合成实时率的测试值。
9.根据权利要求6所述的方法,其特征在于,在测试指标包括响应时间的情况下,所述获取所述虚拟形象交互系统在基于所述测试数据进行交互响应过程中与测试指标相关的采样数据,包括:
获取所述音频数据中表征用户停止说话的时刻与合成视频流中虚拟形象开始应答时刻;
所述基于所述采样数据,得到所述虚拟形象交互系统在所述测试指标的测试值,包括:
获取表征用户停止说话的时刻与合成视频流中虚拟形象开始应答时刻之差,作为所述响应时间的测试值。
10.一种虚拟形象交互方法,其特征在于,包括:
获取并播放第一视频流;其中,交互应答服务器响应于用户通过交互终端发出的第一交互请求生成第一交互决策,并基于所述第一交互决策通过虚拟形象合成引擎实时合成所述第一视频流,所述交互应答服务器基于所述第一交互请求中关键词为所述第一视频流标记表征打断后是否续播的标志符;
响应于用户在播放所述第一视频流时的第二交互请求,发送打断合成请求和所述第二交互请求至所述交互应答服务器;其中,所述交互应答服务器响应于所述打断合成请求而暂停合成所述第一视频流,并响应于所述第二交互请求实时合成第二视频流,以及在所述第二视频流合成完毕之后,基于所述标志符,确定是否从所述第一交互决策的打断位置开始继续合成新的第一视频流;
获取并播放所述交互应答服务器新合成的视频流。
11.根据权利要求10所述的方法,其特征在于,在所述获取并播放第一视频流之前,所述方法还包括:
响应于注册人脸、唤醒词中任一者均未检测到但检测到超出时长阈值的视线凝视,切换至唤醒状态,并输出用于指导用户交互的提示信息。
12.根据权利要求11所述的方法,其特征在于,在所述切换至唤醒状态之前,所述方法还包括:
检测对用户的拍摄视频中各帧图像的唇部关键点;
基于所述图像中所述唇部关键点,确定所述图像中的上下唇距离;
统计所述上下唇距离大于距离阈值的图像帧数;
其中,在所述帧数大于数量阈值的情况下,切换至所述唤醒状态,在所述帧数不大于所述数量阈值的情况下,维持休眠状态。
13.根据权利要求12所述的方法,其特征在于,所述距离阈值基于所述各帧图像中所述上下唇距离进行数值统计得到。
14.根据权利要求10所述的方法,其特征在于,所述方法还包括:
响应于识别到切换手势,切换显示下一个文博展品的三维模型;
和/或,响应于在显示文博展品的三维模型时识别到点赞手势,为当前显示的文博展品累加预设分值;其中,各个文博展品的三维模型基于各自累加分值的大小顺序依次显示。
15.根据权利要求10所述的方法,其特征在于,所述方法还包括:
响应于检测到注册人脸,获取所述注册人脸所属用户的参观路线,并基于当前检测到所述注册人脸的交互终端所在位置和所述参观路线,确定所述所属用户下一参观的文博展品,以及显示第三视频流;
其中,所述第三视频流由所述交互应答服务器基于所述下一参观的文博展品通过所述虚拟形象合成引擎实时合成得到,且所述第三视频流中虚拟形象指示所述下一参观的文博展品的位置信息。
16.根据权利要求15所述的方法,其特征在于,所述方法还包括:
响应于所述注册人脸所属用户的查看请求,显示所述所属用户在其参观路线上的参观进度,并显示第四视频流;
其中,所述第四视频流由所述交互应答服务器基于所述参观进度通过所述虚拟形象合成引擎实时合成得到,且所述第四视频流中虚拟形象的表情、动作、语音中至少一者与所述参观进度相匹配。
17.根据权利要求15所述的方法,其特征在于,所述方法还包括:
响应于结束与所述注册人脸所属用户之间关于文博喜好的交互问答,基于所述交互问答,生成所述参观路线,并显示第五视频流;
其中,所述第五视频流由所述交互应答服务器基于所述参观路线中首个参观的文博展品通过虚拟形象合成引擎实时合成得到,且所述第五视频流中虚拟形象指示所述首个参观的文博展品的位置信息。
18.一种虚拟形象交互方法,其特征在于,包括:
基于交互终端发出的第一交互请求,生成第一交互决策,并基于所述第一交互决策通过虚拟形象合成引擎合成第一视频流,以及基于所述第一交互请求中关键词为所述第一视频流标记表征打断后是否续播的标志符;其中,所述交互终端获取并播放所述第一视频流;
响应于所述交互终端发出的打断合成请求,暂停合成所述第视频流,并响应于所述交互终端发出的第二交互请求,实时合成第二视频流,以及在所述第二视频流合成完毕之后,基于所述标志符,确定是否从所述第一交互决策的打断位置开始继续合成新的第一视频流;其中,所述打断合成请求由所述交互终端响应于用户在播放所述第一视频流时的第二交互请求而发送,且所述交互终端获取并播放新合成的视频流。
19.根据权利要求18所述的方法,其特征在于,所述第一交互决策包括时间同步的交互文本和动作指令,所述虚拟形象合成引擎基于所述交互文本的合成语音和所述动作指令进行合成操作,在基于所述标志符,确定合成所述新的第一视频流的情况下,所述方法还包括:
获取所述打断位置在所述合成语音中对应的时间信息,并获取所述第一视频流中所述虚拟形象在所述打断位置的音素信息;
基于所述时间信息和所述音素信息,确定所述交互文本中未被所述第一视频流中所述虚拟形象播报过的文本内容;
通过所述虚拟形象合成引擎,基于所述文本内容在所述合成语音中的对应部分和所述动作指令在所述打断位置之后的残余部分,合成得到所述新的第一视频流。
20.根据权利要求19所述的方法,其特征在于,所述获取所述打断位置在所述合成语音中对应的时间信息,包括:
获取所述打断位置在所述合成语音中对应音频帧的帧号;
基于所述合成语音的帧率和所述帧号,得到所述时间信息。
21.根据权利要求18所述的方法,其特征在于,所述第一交互决策至少包括交互文本,所述基于所述第一交互决策通过虚拟形象合成引擎合成第一视频流,包括:
响应于基于所述关键词在信息处理服务器中的信息系统检索到匹配的文博展品,将所述匹配的文博展品作为目标展品,并基于所述交互文本进行语音合成,得到合成语音,以及在通过所述虚拟形象合成引擎对所述合成语音进行形象合成所得到的第一视频流中,嵌入所述目标展品的三维模型。
22.根据权利要求21所述的方法,其特征在于,在所述将所述匹配的文博展品作为目标展品之前或之后,所述方法还包括:
确定所述第一交互决策还包括与所述交互文本时间同步的动作指令至少包括伸手动作;
所述通过所述虚拟形象合成引擎对所述合成语音进行形象合成所得到的第一视频流中,嵌入所述目标展品的三维模型,包括:
通过所述通过虚拟形象合成引擎对所述合成语音、所述动作指令和所述目标展品的三维模型进行形象合成,得到所述第一视频流;
其中,所述第一视频流中的虚拟形象触发所述伸手动作展示所述目标展品的三维模型。
23.一种交互系统测试装置,其特征在于,用于对权利要求1至5任一项所述的虚拟形象交互系统进行测试,所述装置包括:
输入模块,用于输入测试数据至所述虚拟形象交互系统中所述交互终端的测试驱动接口;其中,在所述测试数据为视频数据时被所述测试驱动接口拆分为音频数据和图像数据;
获取模块,用于获取所述虚拟形象交互系统在基于所述测试数据进行交互响应过程中与测试指标相关的采样数据;
计算模块,用于基于所述采样数据,得到所述虚拟形象交互系统在所述测试指标的测试值;
确定模块,用于基于所述虚拟形象交互系统在各个测试指标上的测试值,确定所述虚拟形象交互系统是否测试通过。
24.一种虚拟形象交互装置,其特征在于,包括:
第一获取模块,用于获取并播放第一视频流;其中,交互应答服务器响应于用户通过交互终端发出的第一交互请求生成第一交互决策,并基于所述第一交互决策通过虚拟形象合成引擎实时合成所述第一视频流,所述交互应答服务器基于所述第一交互请求中关键词为所述第一视频流标记表征打断后是否续播的标志符;
请求发送模块,用于响应于用户在播放所述第一视频流时的第二交互请求,发送打断合成请求和所述第二交互请求至所述交互应答服务器;其中,所述交互应答服务器响应于所述打断合成请求而暂停合成所述第一视频流,并响应于所述第二交互请求实时合成第二视频流,以及在所述第二视频流合成完毕之后,基于所述标志符,确定是否从所述第一交互决策的打断位置开始继续合成新的第一视频流;
第二获取模块,用于获取并播放所述交互应答服务器新合成的视频流。
25.一种虚拟形象交互装置,其特征在于,包括:
请求处理模块,用于基于交互终端发出的第一交互请求,生成第一交互决策,并基于所述第一交互决策通过虚拟形象合成引擎合成第一视频流,以及基于所述第一交互请求中关键词为所述第一视频流标记表征打断后是否续播的标志符;其中,所述交互终端获取并播放所述第一视频流;
打断续播模块,用于响应于所述交互终端发出的打断合成请求,暂停合成所述第视频流,并响应于所述交互终端发出的第二交互请求,实时合成第二视频流,以及在所述第二视频流合成完毕之后,基于所述标志符,确定是否从所述第一交互决策的打断位置开始继续合成新的第一视频流;其中,所述打断合成请求由所述交互终端响应于用户在播放所述第一视频流时的第二交互请求而发送,且所述交互终端获取并播放新合成的视频流。
26.一种交互终端,其特征在于,包括通信电路、存储器和处理器,所述通信电路和所述存储器分别耦接至所述处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现权利要求10至17任一项所述的虚拟形象交互方法。
27.一种交互应答服务器,其特征在于,包括通信电路、存储器和处理器,所述通信电路和所述存储器分别耦接至所述处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现权利要求18至22任一项所述的虚拟形象交互方法。
28.一种计算机可读存储介质,其特征在于,存储有能够被处理器运行的程序指令,所述程序指令用于实现权利要求6至22任一项所述的虚拟形象交互方法。
CN202211643916.XA 2022-12-20 2022-12-20 虚拟形象交互方法及相关装置、设备、系统和介质 Pending CN116088675A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211643916.XA CN116088675A (zh) 2022-12-20 2022-12-20 虚拟形象交互方法及相关装置、设备、系统和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211643916.XA CN116088675A (zh) 2022-12-20 2022-12-20 虚拟形象交互方法及相关装置、设备、系统和介质

Publications (1)

Publication Number Publication Date
CN116088675A true CN116088675A (zh) 2023-05-09

Family

ID=86186039

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211643916.XA Pending CN116088675A (zh) 2022-12-20 2022-12-20 虚拟形象交互方法及相关装置、设备、系统和介质

Country Status (1)

Country Link
CN (1) CN116088675A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116843805A (zh) * 2023-06-19 2023-10-03 上海奥玩士信息技术有限公司 一种包含行为的虚拟形象生成方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116843805A (zh) * 2023-06-19 2023-10-03 上海奥玩士信息技术有限公司 一种包含行为的虚拟形象生成方法、装置、设备及介质
CN116843805B (zh) * 2023-06-19 2024-03-19 上海奥玩士信息技术有限公司 一种包含行为的虚拟形象生成方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
Duarte et al. How2sign: a large-scale multimodal dataset for continuous american sign language
CN109065055B (zh) 基于声音生成ar内容的方法、存储介质和装置
Hong et al. Video accessibility enhancement for hearing-impaired users
CN116484318B (zh) 一种演讲训练反馈方法、装置及存储介质
CN113835522A (zh) 手语视频生成、翻译、客服方法、设备和可读介质
CN113380271B (zh) 情绪识别方法、系统、设备及介质
CN109348275A (zh) 视频处理方法和装置
US20120088211A1 (en) Method And System For Acquisition Of Literacy
US9525841B2 (en) Imaging device for associating image data with shooting condition information
Süzgün et al. Hospisign: an interactive sign language platform for hearing impaired
EP4075411A1 (en) Device and method for providing interactive audience simulation
CN113392273A (zh) 视频播放方法、装置、计算机设备及存储介质
JP2016177483A (ja) コミュニケーション支援装置、コミュニケーション支援方法及びプログラム
CN113822187B (zh) 手语翻译、客服、通信方法、设备和可读介质
CN114359446B (zh) 一种动画绘本生成方法、装置、设备和存储介质
CN116088675A (zh) 虚拟形象交互方法及相关装置、设备、系统和介质
CN113851029B (zh) 一种无障碍通信方法和装置
CN111160051B (zh) 数据处理方法、装置、电子设备及存储介质
CN117292022A (zh) 基于虚拟对象的视频生成方法、装置及电子设备
KR102460595B1 (ko) 게임 방송에서의 실시간 채팅 서비스 제공 방법 및 장치
Riviello et al. On the perception of dynamic emotional expressions: A cross-cultural comparison
CN115171673A (zh) 一种基于角色画像的交流辅助方法、装置及存储介质
WO2020154883A1 (zh) 语音信息的处理方法、装置、存储介质及电子设备
Teófilo Enabling deaf or hard of hearing accessibility in live theaters through virtual reality
CN113822186B (zh) 手语翻译、客服、通信方法、设备和可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination