CN110472099B - 互动视频生成方法及装置、存储介质 - Google Patents

互动视频生成方法及装置、存储介质 Download PDF

Info

Publication number
CN110472099B
CN110472099B CN201810444926.8A CN201810444926A CN110472099B CN 110472099 B CN110472099 B CN 110472099B CN 201810444926 A CN201810444926 A CN 201810444926A CN 110472099 B CN110472099 B CN 110472099B
Authority
CN
China
Prior art keywords
information
client
target scene
current target
virtual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810444926.8A
Other languages
English (en)
Other versions
CN110472099A (zh
Inventor
黄小凤
曹超利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810444926.8A priority Critical patent/CN110472099B/zh
Publication of CN110472099A publication Critical patent/CN110472099A/zh
Application granted granted Critical
Publication of CN110472099B publication Critical patent/CN110472099B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明公开了一种互动视频生成方法及装置、存储介质。其中,该方法包括:客户端接收第一请求,其中,第一请求用于请求在客户端上显示的当前目标场景中开始表演;在客户端上显示与当前目标场景相关的第一信息;确定接收到客户端识别的与第一信息相关的语音信息后,在客户端上显示与当前目标场景和第一信息相关的第二信息;确定接收到与当前目标场景相关的所有信息相对应的语音信息后,生成互动视频并在客户端进行展示互动视频。本发明解决了相关技术中视频生成过程互动性较差的技术问题。

Description

互动视频生成方法及装置、存储介质
技术领域
本发明涉及计算机领域,具体而言,涉及一种互动视频生成方法及装置、存储介质。
背景技术
如今,为了增加用户使用终端的乐趣,很多终端应用的开发商会在终端应用中为用户打造模拟影视剧的虚拟场景。其中,在上述虚拟场景中,往往会通过模拟仿真的方式再现很多影视剧中的场景或事物。
但是,上述虚拟场景对应的表演台词基本上是预先设置好的,显示时间不受虚拟场景中虚拟角色的表演者影响,如,在生成模拟影视剧的视频的过程中,无论表演者是否正确的表演出影视剧前面的信息,后面的信息均按预设时间顺序显示,不会随前面的信息的表演情况延迟或者提前。从而使得在生成模拟影视剧的视频的过程中,信息之间的显示缺乏关联性,导致视频生成过程互动性较差的问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供一种互动视频生成方法及装置、存储介质,以至少解决相关技术中视频生成过程互动性较差的技术问题。
根据本发明实施例的一个方面,提供了一种互动视频生成方法,包括:接收从客户端发送的第一请求,其中,第一请求用于请求在客户端上显示的当前目标场景中开始表演;在客户端上显示所述当前目标场景相关的第一信息;确定接收到客户端识别的与第一信息相关的语音信息后,在客户端上显示与所述当前目标场景和所述第一信息相关的第二信息;确定接收到与当前目标场景相关的所有信息相对应的语音信息后,生成互动视频并在客户端进行展示互动视频。
根据本发明实施例的另一方面,还提供了一种互动视频生成装置,包括:第一发送单元,用于接收从客户端发送接收第一请求,其中,第一请求用于请求在客户端上显示的当前目标场景中开始表演;第一显示单元,用于在客户端上显示所述当前目标场景相关的第一信息;第二显示单元,用于确定接收到客户端识别的与第一信息相关的语音信息后,在客户端上显示与所述当前目标场景和所述第一信息相关的第二信息;生成模块,用于确定接收到与当前目标场景相关的所有信息相对应的语音信息后,生成互动视频并在客户端进行展示互动视频。
根据本发明实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述方法。
根据本发明实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的方法。
在本发明实施例中,在客户端显示获取到的表演中的第一信息后,确定该第一信息与由客户端检测到的语音信息识别出的文本匹配时,才显示上述表演中的第二信息,然后,在确定接收到了与当前目标场景相关的所有信息相对应的语音信息后,再生成互动视频,使得信息之间(如第一信息和第二信息之间)的显示不再是独立的,而是相互关联的,进而提高了信息显示的互动性,即提高了视频生成过程的互动性,进而解决了相关技术中视频生成过程互动性较差的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种互动视频生成的应用环境的示意图;
图2是根据本发明实施例的一种可选的互动视频生成方法的流程示意图;
图3是根据本发明实施例的一种可选的台词显示过程的示意图;
图4是根据本发明实施例的另一种可选的语音识别和匹配过程的示意图;
图5是根据本发明实施例的一种可选的互动视频生成方法中选择需要表演的电影场景的示意图;
图6是根据本发明实施例的一种可选的互动视频生成方法中其他用户看到邀请示意图;
图7是根据本发明实施例的一种可选的互动视频生成方法中进入直播间的示意图;
图8是根据本发明实施例的一种可选的互动视频生成方法中进入直播间后无人表演的示意图;
图9是根据本发明实施例的一种可选的互动视频生成方法中有一个用户表演(表演者界面)的示意图;
图10是根据本发明实施例的一种可选的互动视频生成方法中有一个用户表演(观众界面)的示意图;
图11是根据本发明实施例的一种可选的互动视频生成方法中表演倒计时的示意图;
图12是根据本发明实施例的一种可选的互动视频生成方法中表演开始提示的示意图;
图13是根据本发明实施例的一种可选的互动视频生成方法中第一句台词出现的示意图;
图14是根据本发明实施例的一种可选的互动视频生成方法中第一句台词的字体颜色变换的示意图;
图15是根据本发明实施例的一种可选的互动视频生成方法中第二句台词出现的示意图;
图16是根据本发明实施例的一种可选的互动视频生成方法中表演结束的示意图;
图17是根据本发明实施例的一种可选的互动视频生成方法中创建表演直播间时序的示意图;
图18是根据本发明实施例的一种可选的互动视频生成方法中表演启动过程时序(单人加入表演)的示意图;
图19是根据本发明实施例的一种可选的互动视频生成方法中表演启动过程时序(多人加入表演)的示意图;
图20是根据本发明实施例的一种可选的互动视频生成方法中表演阶段过程时序的示意图;
图21是根据本发明实施例的另一种可选的互动视频生成方法中表演阶段过程时序的示意图;
图22是根据本发明实施例的一种可选的互动视频生成装置的结构示意图;
图23是根据本发明实施例的另一种可选的互动视频生成装置的结构示意图;
图24是根据本发明实施例的一种可选的电子装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面对本发明中出现的术语和缩略语进行简要介绍。
1. 直播——在现场随着事件的发生、发展进程同步制作和发布信息,具有双向流通过程的信息网络发布方式。
2. 主播——负责直播的人。
3. APP——安装在智能手机上的软件,完善原始系统的不足与个性化。
4. 剧本——舞台表演或拍戏的必要工具之一,是剧中人物进行对话的参考语言。
5. 桥段——电影经典情节或精彩片段。
6. 增强现实技术(Augmented Reality,简称为AR):是一种实时地计算摄影机影像的位置及角度并加上相应图像、视频、3D模型的技术,这种技术的目标是在屏幕上把虚拟世界套在现实世界并进行互动。
7. 人脸识别:特指在图像中找到人脸的位置和大小的计算机技术。
8. 五官定位:特指利用人脸识别技术定位五官动态位置。
9.语音识别:语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术,主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。
根据本发明实施例的一个方面,提供了一种可选的互动视频生成方法。可选地,上述互动视频生成方法可以但不限于应用于如图1所示的应用环境中。如图1所示,客户端102通过网络104向服务器106发送第一请求,其中,上述第一请求用于请求在客户端102上显示的当前目标场景中开始表演;然后,在客户端102上显示从服务器106上获取到的表演中的角色A的与当前目标场景相关的第一信息(如,A:XXX);客户端102接收角色A对应的表演者的语音信息,在确定语音信息是客户端识别的与第一信息相关的语音信息后,客户端102显示与当前目标场景和第一信息相关的的表演中的角色B的第二信息(如,虚线内的B:YYY),然后,在确定接收到与当前目标场景相关的所有信息相对应的语音信息后,生成互动视频,进而在客户端进行展示互动视频。
本发明实施例在表演的过程中,需用户说出指定剧本信息,如有人未准确说出与指定剧本信息匹配的语音,则不能出现下一句信息,即表演不能继续。在匹配过程中,本发明实施例可以通过语音识别技术实时定位识别用户的语音,将其转化为文本并与信息进行对比,完全匹配时即出现后续信息,让用户能根据信息顺利进行表演。因此,在客户端显示获取到的表演中的第一信息后,确定该第一信息与由客户端检测到的语音信息识别出的文本匹配时,才显示上述表演中的第二信息,然后,在确定接收到了与当前目标场景相关的所有信息相对应的语音信息后,再生成互动视频,使得信息之间(如第一信息和第二信息之间)的显示不再是独立的,而是相互关联的,进而提高了信息显示的互动性,然后,在确定接收到了与当前目标场景相关的所有信息相对应的语音信息后,再生成互动视频,进而解决了相关技术中视频生成过程互动性较差的技术问题。
可选地,在本实施例中,上述终端可以包括但不限于以下至少之一:手机、平板电脑等。上述网络可以包括但不限于无线网络,其中,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以包括但不限于以下至少之一:PC机及其他用于计算服务的设备。上述只是一种示例,本实施例对此不做任何限定。
可选地,在本实施例中,作为一种可选的实施方式,如图2所示,上述互动视频生成方法可以包括:
S202,接收从客户端发送的第一请求,其中,第一请求用于请求在客户端上显示的当前目标场景中开始表演;
S204,在客户端上显示与当前目标场景相关的第一信息信息;
S206,确定接收到客户端识别的与第一信息相关的语音信息后,在客户端上显示与当前目标场景和第一信息相关的第二信息;
S208,确定接收到与当前目标场景相关的所有信息相对应的语音信息后,生成互动视频并在客户端进行展示互动视频。
需要说明的是,上述信息可以包括但不限于:台词、旁白。
需要说明的是,上述信息显示方法可以应用于单人直播或多人直播中,例如,多个用户在一个直播间时,通过各自的视频窗口,使用电影(即上述目标场景)配套的配置,然后,根据服务器提供的剧本信息在各自的视频窗口显示电影的第一信息,在确定第一信息与由客户端检测到对应的表演者的语音识别出的文本匹配的情况下,才从服务器获取剧本信息的第二句信息,在各自的视频窗口显示第二信息,以此方式进行特定桥段的对话、表情演绎。需要说明的是,以上只是一种示例,本实施例对此不作任何限定。
相关技术中,不管是单人还是多人进行模拟表演时,表演信息基本上是预先设置好的,不受虚拟场景中虚拟角色的表演者影响,而且,相关技术中多人进行表演的语音识别过程,也不会对其他人产生影响,因此,表演者相互之间互动的趣味性不足。而在本发明实施例中,在客户端显示从所述服务器上获取到的表演中的第一信息后,确定该第一信息与由客户端检测到的语音信息识别出的文本匹配时,才显示上述表演中的第二信息,然后,在确定接收到与当前目标场景相关的所有信息相对应的语音信息后,生成互动视频并在客户端进行展示互动视频,使得信息之间(如第一信息和第二信息之间)的显示不再是独立的,而是相互关联的,进而提高了信息显示的互动性,即提高了视频生成过程的互动性,进而解决了相关技术中视频生成过程互动性较差的技术问题。
需要说明的,可以根据语音信息识别出的文本是否与第一信息匹配,来确定接收到客户端识别的与第一信息相关的语音信息,例如,客户端检测语音信息,在检测到语音信息后,检测由语音信息识别出的文本是否与第一信息匹配,在检测结果为是的情况下,则确定接收到客户端识别的与第一信息相关的语音信息。
可选地,检测由语音信息识别出的文本是否与第一信息匹配可以在客户端上执行,也可以在服务器上执行。例如,在客户端上执行上述操作时,检测过程可以但不限于包括:客户端检测由语音信息识别出的文本是否与第一信息匹配,在检测结果匹配的情况下,客户端向服务器发送用于请求服务器发送第二信息的第二请求;在服务器上执行上述操作时,检测过程可以但不限于包括:客户端将语音信息发送给服务器,服务器接收到语音信息后,检测由语音信息识别出的文本是否与第一信息匹配,并向客户端返回用于指示由语音信息识别出的文本是否与第一信息匹配的比对结果。
需要说明的是,在检测由语音信息识别出的文本是否与第一信息匹配过程中,可以逐一检测由语音信息识别出的文本的第一预定字符是否与第一信息中的第二预定字符匹配,在检测结果匹配的情况下,将第一信息的第二预定字符的显性属性进行替换,直到第一信息的字符的显性属性均被替换的情况下,在客户端上显示从服务器上获取到的表演中的第二信息,其中,该第二信息与当前目标场景和所述第一信息相关。
可选地,上述显示属性可以包括但不限于以下至少之一:字符的颜色、字符的大小、字符是否带有下划线。
需要说明的是,在从客户端向服务器发送第一请求之前,客户端向服务器发送用于请求当前目标场景对应的虚拟背景的第二请求,然后,接收服务器响应第二请求返回的虚拟背景,并在客户端显示当前目标场景对应的虚拟背景。可选地,在客户端显示当前目标场景对应的虚拟背景时,可以一并显示虚拟场景对应的虚拟角色对应的虚拟形象,例如,通过五官定位技术定位当前目标场景下的虚拟角色对应的表演者的五官,以及通过人脸识别技术识别当前目标场景下的虚拟角色对应的表演者的脸部表情,然后,根据表演者的五官和脸部表情,获取表演者对应的虚拟角色的虚拟角色形象,在客户端将虚拟背景与虚拟角色形象叠加显示。
作为一种可选的方案,在本实施例中,确定接收到客户端识别的与第一信息相关的语音信息包括但不限于:在客户端上检测到语音信息;检测由语音信息识别出的文本是否与第一信息匹配;在检测结果为是的情况下,确定接收到客户端识别的与第一信息相关的语音信息。相关技术中,现有语音识别技术主要应用于语音输入,并未应用到表演中,而本发明实施例将语音识别技术应用到了虚拟表演中,较好的利用了语音识别技术的优势来实现信息的匹配。
具体结合以下示例进行说明,其中,本实施以及以下具体实施例均以第一信息和第二信息为台词为例进行说明,如图3所示,表演者使用客户端302表演目标场景的虚拟角色A,在客户端302显示第一句台词“XXX”后,表演者根据显示的台词说出“XXX”,客户端检测到语音“XXX”后,将该语音“XXX”进行语音识别,并确定识别出的文本是否与界面显示的台词“XXX”匹配。可选地,上述将语音“XXX”识别为文本可以使用语音识别技术。
作为一种可选的方案,在本实施例中,检测由语音信息识别出的文本是否与第一信息匹配包括:在客户端上检测由语音信息识别出的文本是否与第一信息匹配;在由语音信息识别出的文本与第一信息匹配的情况下,接收客户端发送的第二请求,其中,第二请求用于请求服务器发送第二信息。可见,在本发明实施中,检测语音后,客户端进行语音识别转换为文本,并匹配该文本和第一信息,无需服务器参与,减少了与服务器的信令交互。
例如,以第一信息和第二信息为台词为例进行说明,客户端通过识别和理解把用户的语音信号转变为相应的文本,然后将转变的文本与客户端显示的台词进行比对,并将匹配的台词进行颜色替换呈现(例如,从白色变为绿色),在全部台词匹配时,向服务器发送第二句台词的请求,服务端响应上述请求将第二句台词返客户端。具体结合以下示例进行说明,如上述图3所示,上述语音识别过程可以客户端302直接进行,即客户端302检测到语音“XXX”后,根据语音识别技术将语音“XXX”转化为文本,并检测转化的文本与界面显示的台词“XXX”是否匹配,在确定匹配的情况下,客户端302向服务器306请求第二台词。
作为一种可选的方案,在本实施例中,检测由语音信息识别出的文本是否与第一信息匹配包括:接收客户端发送的语音信息;确定语音信息对应的对比结果,并发送给客户端,其中,比对结果用于指示由语音信息识别出的文本是否与第一信息匹配。可见,在本发明实施中,检测语音后,客户端将语音发送给服务端,由服务端进行语音识别转换为文本,并匹配该文本和第一信息,然后将结果反馈给客户端,降低了客户端的操作复杂度。
例如,仍以第一信息和第二信息为台词为例进行说明,客户端将接收到语音发送给服务器,服务器通过识别和理解把用户的语音信号转变为相应的文本,然后将转变的文本与客户端显示的台词进行比对,并将比对结果返回客户端,客户端将匹配的台词进行颜色替换呈现(如,从白色变为绿色),在全部台词匹配时,服务端将第二句台词推送给客户端。具体结合以下示例进行说明,如上述图3所示,上述语音识别过程可以服务器306上进行,即客户端302检测到语音“XXX”后,将该语音发送给服务器306,服务器306根据语音识别技术将语音“XXX”转化为文本,检测转化的文本与界面显示的台词“XXX”是否匹配,然后将匹配结果发送给客户端302。
作为一种可选的方案,在本实施例中,检测由语音信息识别出的文本是否与第一信息匹配包括:逐一检测由语音信息识别出的文本的第一预定字符是否与第一信息中的第二预定字符匹配;在第一预定字符与第二预定字符匹配的情况下,将第一信息的第二预定字符的显性属性进行替换。
可选地,上述显性属性指的是在该属性改变后,字符发生可见的变化的属性。可选地,上述显性属性可以包括以下至少之一:字符的颜色、字符的大小、字符是否带有下划线。逐一匹配信息的字符,并将其显性属性改变,可以让用户在第一时间知晓匹配结果,如果匹配不成功,可以在第一时间重新输出语音,并且,通过界面可见的变化,让用户有更好的体验度。
具体结合以下示例进行说明,如图4所示,以在客户端402进行语音识别和匹配为例进行说明,客户端302在检测到语音输入时,识别该语音并转化为文本“XXX”,在文本“XXX”与客户端302显示的“XXX”的第一个字符匹配成功时,将上述客户端显示的第一字符加下划线,通过该变化,用户可知第一个字符已匹配成功。
作为一种可选的方案,在本实施例中,在客户端上显示与当前目标场景和第一信息相关的第二信息包括:在第一信息的字符的显性属性均被替换的情况下,在客户端上显示与当前目标场景和第一信息相关的第二信息。
具体结合以下示例进行说明,如图4所示,在终端402界面显示的台词“XXX”全部加了下滑线后,在界面显示第二台词,这样,下一台词的表演者可以直接知晓何时开始语音输入。
作为一种可选的方案,在本实施例中,在接收客户端发送的第一请求之前,还包括:在客户端显示当前目标场景对应的虚拟背景。通过本实施例,在客户端显示虚拟场景,可以增加用户的带入感,并且,让表演者无需布置场景即可参与表演。
具体结合以下示例进行说明,如图4所示,为了增加用户的代入感,客户端402将电影配套的虚拟背景显示在窗口,如图4所示的云彩、羊、帐篷等,显示在相应的窗口。
作为一种可选的方案,在本实施例中,在客户端上显示与当前目标场景相关的第一信息之后,还包括:定位识别当前目标场景下的虚拟角色对应的表演者的五官和脸部表情,其中,所述虚拟角色为所述第一信息对应的角色;根据表演者的五官和脸部表情,获取表演者对应的虚拟角色的虚拟角色形象;在客户端将虚拟背景与虚拟角色形象叠加显示。通过上述实施例,将虚拟背景与虚拟角色形象叠加显示,使得表演者无需布置场景、无需化妆即可参与表演,满足了用户低门槛参与表演的需求。
作为一种可选的方案,在本实施例中,定位识别当前目标场景下的虚拟角色对应的表演者的五官和脸部表情包括:通过五官定位技术定位当前目标场景下的虚拟角色对应的表演者的五官;通过人脸识别技术识别目标场景下的虚拟角色对应的表演者的脸部表情。
具体结合以下示例进行说明,如图4所示,客户端402通过可以通过摄像头结合五官定位和人脸识别技术,定位识别表演者的五官和脸部表情,并通过AR技术触发虚拟形象表情,同时叠加虚拟背景,一并呈现在客户端的相应界面上。
作为一种可选的方案,在本实施例中,在客户端显示当前目标场景对应的虚拟背景之前,还包括:接收客户端发送的第二请求,其中,第二请求用于请求当前目标场景对应的虚拟背景;向客户端发送响应第二请求返回的虚拟背景。
为了方便理解上述实施例,下面结合附图5至16对上述实施例进行详细说明。本发明实施例提供了一种可选的直播时的台词显示方法,该方法包括:
(1)单个用户在与他人的聊天对话窗口中,选择需要表演的电影场景(如图5所示),然后,发送邀请到其他用户的聊天窗口中(如图6所示),邀请其他用户一起进行表演直播。
(2)用户点击“进入房间”按钮,进入表演直播间(如图7所示)。
(3)用户进入直播间后,可以选择需要的角色,点击“我来演”按钮开始表演(如图8所示),视频窗口即显示虚拟的电影场景的背景,同时通过五官定位和人脸识别技术,定位识别表演者的五官和脸部表情,并通过AR技术触发虚拟形象表情贴图,叠加在虚拟背景上,一并呈现在视频界面上(如图9所示,表演者界面)。用户也可以只观看不表演(如图10所示,观众界面)。
(4)当所有演员都入场时,界面出现3秒倒计时(如图11所示),然后出现“表演开始”提示(如图12所示)。
(5)表演开始,界面出现第一句剧本台词(如图13所示)。通过语音识别技术判断对应的表演者准确说出台词时,界面再出现下一句剧本台词,例如,系统实时定位识别用户的语音,转化为文本,并与台词进行比对,匹配时将台词字体颜色变换或者加下划线,否则颜色不变(如图14所示)。当用户准确说出第一句剧本台词(即所有台词颜色均加下划线)时,界面出现第二句台词(如图15所示)。
(6)当用户依次准确说完所有剧本台词时,界面出现“圆满结束”提示,结束表演(如图16所示)。
需要说明的是,上述台词显示方法中创建表演直播间时序图如图17所示,创建表演直播间的详细流程如下所描述(即显示目标背景的过程):
1、用户点击选择要表演的电影场景;
2、客户端发送表演请求到服务端,并将要表演的电影场景发送到服务端;
3、服务端接收到客户端发送的表演请求后,开启直播间并返回直播间信息给客户端;
4、客户端呈现直播间信息,并等待用户点击进入直播间;
5、用户点击进入直播间;
6、客户端加载直播间信息,提示用户等待。
需要说明的是,上述台词显示方法中表演启动过程时序图如图18至19所示,其中,单人加入表演的表演启动过程时序图如图18所示,多人加入表演的表演启动过程时序图如图19所示。
(一)单人加入表演,表演启动过程的详细流程如下所描述:
1、用户点击选择要表演的角色;
2、客户端启动摄像头、麦克风,采集用户的脸部表情、五官和语音数据;
3、用户通过摄像头和麦克风进行表演;
4、客户端进行五官定位、人脸识别,然后呈现融入了用户虚拟形象动效贴图,并将动效贴图叠加在直播画面,同时播放用户语音;
5、客户端将用户加入表演的状态发送到服务端;
6、服务端根据该状态判断是否触发表演;
7、当表演者成功加入表演时,服务端返回表演互动指令给到客户端;
8、客户端接收到服务端指令后进入表演阶段。
(二)多人加入表演,表演启动过程的详细流程如下所描述:
1、多个用户分别通过各自的客户端点击选择要表演的角色发送请求,即多个用户在同一表演中扮演不同的角色时,可以由系统直接为多个用户分配角色,也可以由多个用户自己选择,当多个用户选择同一角色,系统将角色分配给最先发送请求的用户;
可选地,在步骤1之前还可以根据表演的目标场景对应的剧本确定表演的人数为N,N为大于等于1的正整数,当确定N大于1时,进一步确定发送请求的用户个数等于N,如果等于N,进入步骤1,如果小于N,则允许系统自动配备缺少表演者的角色,采用系统预设的虚拟表演者,进入步骤1,如果大于N,则将没有选择上角色的表演者以观众的形式加入表演中;
2、各个客户端分别启动摄像头、麦克风,采集用户的脸部表情、五官和语音数据;
3、多个用户分别通过各自的客户端的摄像头和麦克风进行表演;
4、多个客户端分别对表演者进行五官定位、人脸识别,然后呈现融入了用户虚拟形象动效贴图,并将动效贴图叠加在直播画面,同时播放用户语音;
5、客户端将用户加入表演的状态发送到服务端;
6、服务端根据状态判断是否触发表演;
7、当所有表演者成功加入表演时,服务端返回表演互动指令给到各个客户端;
8、各个客户端接收到服务端指令后进入表演阶段。
需要说明的是,上述台词显示方法中表演阶段过程时序图如图20至21所示(可以看做台词匹配过程),其中,客户端进行语音识别以及匹配的表演阶段过程时序图如图20所示,服务器进行语音识别以及匹配的表演阶段过程时序图如图21所示。如图20所示,客户端进行语音识别以及匹配的表演阶段过程的详细流程如下所描述:
1、多个客户端将所有参与者加入表演状态发送到服务端;
2、服务端等待所有参与者加入表演后开始表演并启动倒计时;
3、服务端返回表演互动指令给到各个客户端;
4、各个客户端出现倒计时提示;
5、倒计时结束后各个客户端出现表演开始提示;
6、客户端将表演开始请求发送到服务端;
7、服务端推送第一句剧本台词给到所有客户端;
8、对应的角色表演者按台词进行表演,并需准确说出台词内容,所有客户端对所有表演者进行五官定位、人脸识别,并呈现融入了用户虚拟形象动效贴图,并将动效贴图叠加在直播画面,同时播放用户语音;
9、客户端进行语音识别,判断指定角色的语音是否与台词匹配,并将匹配的台词进行颜色替换呈现;
10、第一句台词完全匹配时客户端发送第二句台词请求给服务端;
11、服务端推送第二句台词给到所有客户端。
如图21所示,服务器进行语音识别以及匹配的表演阶段过程的详细流程如下所描述:
1-8步骤同上述图20所示;
9、客户端将所有参与者的语音数据发送到服务端;
10、服务端进行语音识别,判断指定角色的语音是否与台词匹配;
11、服务端返回语音匹配结果,当完全匹配时同时返回第二句台词;
12、客户端将匹配的台词进行颜色替换呈现,第一句台词颜色完全替换后,出现第二句台词。
一种低门槛参与表演直播的方法,即,本发明实施中提供了影的虚拟场景背景、虚拟角色形象,允许单个/多个用户在一个直播间,通过各自的视频窗口,使用电影配套的虚拟背景、角色形象,并根据系统实时提供的剧本台词进行特定桥段的对话、表情演绎,让用户无需布置场景、无需化妆、无需背记台词,即可参与表演,满足了用户低门槛参与表演的需求,同时还可以增加多人互动直播过程的趣味性,丰富直播玩法的观赏性。
需要说明的是,在本申请中,涉及到的人脸(或其他生物特征)识别技术,在本申请以上实施例运用到具体产品或技术中时,相关数据收集、使用和处理过程应该遵守国家法律法规要求,收集人脸信息前应该告知信息处理规则并征求目标对象的单独同意,并严格遵照法律法规要求和个人信息处理规则处理人脸信息,采取技术措施保障相关数据安全。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
根据本发明实施例的另一个方面,还提供了一种用于实施上述信息显示方法的信息显示装置,如图22所示,该装置包括:
(1)第一接收单元2202,用于接收从客户端发送的第一请求,其中,第一请求用于请求在客户端上显示的当前目标场景中开始表演;
(2)第一显示单元2204,用于在客户端上显示与当前目标场景相关的第一信息;
(3)第二显示单元2206,用于确定接收到客户端识别的与第一信息相关的语音信息后,在客户端上显示与当前目标场景和第一信息相关的第二信息;
(4)生成单元2208,用于确定接收到与当前目标场景相关的所有信息相对应的语音信息后,生成互动视频并在客户端进行展示互动视频。
需要说明的是,上述信息显示方法可以应用于单人直播或多人直播中,例如,多个用户在一个直播间时,通过各自的视频窗口,使用电影(即上述目标场景)配套的配置,然后,根据服务器提供的剧本信息在各自的视频窗口显示电影的第一信息,在确定第一信息与由客户端检测到对应的表演者的语音识别出的文本匹配的情况下,才从服务器获取剧本信息的第二句信息,在各自的视频窗口显示第二信息,以此方式进行特定桥段的对话、表情演绎。需要说明的是,以上只是一种示例,本实施例对此不作任何限定。
相关技术中,不管是单人还是多人进行模拟表演时,表演信息基本上是预先设置好的,不受虚拟场景中虚拟角色的表演者影响,而且,相关技术中多人进行表演的语音识别过程,也不会对其他人产生影响,因此,表演者相互之间互动的趣味性不足。而在本发明实施例中,在客户端显示从所述服务器上获取到的表演中的第一信息后,确定该第一信息与由客户端检测到的语音信息识别出的文本匹配时,才显示上述表演中的第二信息,然后,在确定接收到与当前目标场景相关的所有信息相对应的语音信息后,生成互动视频并在客户端进行展示互动视频,使得信息之间(如第一信息和第二信息之间)的显示不再是独立的,而是相互关联的,进而提高了信息显示的互动性,即提高了视频生成过程的互动性,进而解决了相关技术中视频生成过程互动性较差的技术问题。
需要说明的,可以根据语音信息识别出的文本是否与第一信息匹配,来确定接收到客户端识别的与第一信息相关的语音信息,例如,客户端检测语音信息,在检测到语音信息后,检测由语音信息识别出的文本是否与第一信息匹配,在检测结果为是的情况下,则确定接收到客户端识别的与第一信息相关的语音信息。
可选地,检测由语音信息识别出的文本是否与第一信息匹配可以在客户端上执行,也可以在服务器上执行。例如,在客户端上执行上述操作时,检测过程可以但不限于包括:客户端检测由语音信息识别出的文本是否与第一信息匹配,在检测结果匹配的情况下,客户端向服务器发送用于请求服务器发送第二信息的第二请求;在服务器上执行上述操作时,检测过程可以但不限于包括:客户端将语音信息发送给服务器,服务器接收到语音信息后,检测由语音信息识别出的文本是否与第一信息匹配,并向客户端返回用于指示由语音信息识别出的文本是否与第一信息匹配的比对结果。
需要说明的是,在检测由语音信息识别出的文本是否与第一信息匹配过程中,可以逐一检测由语音信息识别出的文本的第一预定字符是否与第一信息中的第二预定字符匹配,在检测结果匹配的情况下,将第一信息的第二预定字符的显性属性进行替换,直到第一信息的字符的显性属性均被替换的情况下,在客户端上显示从服务器上获取到的表演中的第二信息,其中,该第二信息与当前目标场景和所述第一信息相关。
可选地,上述显示属性可以包括但不限于以下至少之一:字符的颜色、字符的大小、字符是否带有下划线。
需要说明的是,在从客户端向服务器发送第一请求之前,客户端向服务器发送用于请求当前目标场景对应的虚拟背景的第二请求,然后,接收服务器响应第二请求返回的虚拟背景,并在客户端显示当前目标场景对应的虚拟背景。可选地,在客户端显示当前目标场景对应的虚拟背景时,可以一并显示虚拟场景对应的虚拟角色对应的虚拟形象,例如,通过五官定位技术定位当前目标场景下的虚拟角色对应的表演者的五官,以及通过人脸识别技术识别当前目标场景下的虚拟角色对应的表演者的脸部表情,然后,根据表演者的五官和脸部表情,获取表演者对应的虚拟角色的虚拟角色形象,在客户端将虚拟背景与虚拟角色形象叠加显示。
作为一种可选的方案,如图23所示,上述装置还包括:
(1)检测单元2304,用于在客户端上检测到语音信息;
(2)匹配单元2306,用于检测由语音信息识别出的文本是否与第一信息匹配;
(3)确定单元2308,用于在检测结果为是的情况下,确定接收到客户端识别的与第一信息相关的语音信息。
相关技术中,现有语音识别技术主要应用于语音输入,并未应用到表演中,而本发明实施例将语音识别技术应用到了虚拟表演中,较好的利用了语音识别技术的优势来实现信息的匹配。
具体结合以下示例进行说明,其中,本实施以及以下具体实施例均以第一信息和第二信息为台词为例进行说明,如图3所示,表演者使用客户端302表演目标场景的虚拟角色A,在客户端302显示第一句台词“XXX”后,表演者根据显示的台词说出“XXX”,客户端检测到语音“XXX”后,将该语音“XXX”进行语音识别,并确定识别出的文本是否与界面显示的台词“XXX”匹配。可选地,上述将语音“XXX”识别为文本可以使用语音识别技术。
作为一种可选的方案,在本实施例中,上述匹配单元236包括:第一匹配模块,用于在客户端上检测由语音信息识别出的文本是否与第一信息匹配;第一发送模块,用于在由语音信息识别出的文本与第一信息匹配的情况下,接收客户端发送的第二请求,其中,第二请求用于请求服务器发送第二信息。
在本发明实施中,检测语音后,客户端进行语音识别转换为文本,并匹配该文本和第一台词,无需服务器参与,减少了与服务器的信令交互。
例如,以第一信息和第二信息为台词为例进行说明,客户端通过识别和理解把用户的语音信号转变为相应的文本,然后将转变的文本与客户端显示的台词进行比对,并将匹配的台词进行颜色替换呈现(例如,从白色变为绿色),在全部台词匹配时,向服务器发送第二句台词的请求,服务端响应上述请求将第二句台词返客户端。具体结合以下示例进行说明,如上述图3所示,上述语音识别过程可以客户端302直接进行,即客户端302检测到语音“XXX”后,根据语音识别技术将语音“XXX”转化为文本,并检测转化的文本与界面显示的台词“XXX”是否匹配,在确定匹配的情况下,客户端302向服务器306请求第二台词。
作为一种可选的方案,在本实施例中,上述匹配单元236包括:接收模块,用于接收客户端发送的语音信息;确定模块,用于接收客户端发送的语音信息,其中,比对结果用于指示由语音信息识别出的文本是否与第一信息匹配。
在本发明实施中,检测语音后,客户端将语音发送给服务端,由服务端进行语音识别转换为文本,并匹配该文本和第一信息,然后将结果反馈给客户端,降低了客户端的操作复杂度。
例如,仍以第一信息和第二信息为台词为例进行说明,客户端将接收到语音发送给服务器,服务器通过识别和理解把用户的语音信号转变为相应的文本,然后将转变的文本与客户端显示的台词进行比对,并将比对结果返回客户端,客户端将匹配的台词进行颜色替换呈现(如,从白色变为绿色),在全部台词匹配时,服务端将第二句台词推送给客户端。具体结合以下示例进行说明,如上述图3所示,上述语音识别过程可以服务器306上进行,即客户端302检测到语音XXX后,将该语音发送给服务器306,服务器306根据语音识别技术将语音XXX转化为文本,检测转化的文本与界面显示的台词XXX是否匹配,然后将匹配结果发送给客户端302。
作为一种可选的方案,在本实施例中,上述匹配单元236包括:第二匹配模块,用于逐一检测由语音信息识别出的文本的第一预定字符是否与第一信息中的第二预定字符匹配;替换模块,用于在第一预定字符与第二预定字符匹配的情况下,将第一信息的第二预定字符的显性属性进行替换。
可选地,上述显性属性指的是在该属性改变后,字符发生可见的变化的属性。可选地,上述显性属性可以包括以下至少之一:字符的颜色、字符的大小、字符是否带有下划线。逐一匹配信息的字符,并将其显性属性改变,可以让用户在第一时间知晓匹配结果,如果匹配不成功,可以在第一时间重新输出语音,并且,通过界面可见的变化,让用户有更好的体验度。
具体结合以下示例进行说明,如图4所示,以在客户端402进行语音识别和匹配为例进行说明,客户端302在检测到语音输入时,识别该语音并转化为文本“XXX”,在文本“XXX”与客户端302显示的“XXX”的第一个字符匹配成功时,将上述客户端显示的第一字符加下划线,通过该变化,用户可知第一个字符已匹配成功。
作为一种可选的方案,在本实施例中,第二显示单元包括:第一显示模块,用于在第一信息的字符的显性属性均被替换的情况下,在客户端上显示与当前目标场景和第一信息相关的第二信息。
具体结合以下示例进行说明,如图4所示,在终端402界面显示的台词“XXX”全部加了下滑线后,在界面显示第二台词,这样,下一台词的表演者可以直接知晓何时开始语音输入。
作为一种可选的方案,在本实施例中,上述装置还包括:第三显示单元,用于在客户端显示当前目标场景对应的虚拟背景。
具体结合以下示例进行说明,如图4所示,为了增加用户的代入感,客户端402将电影配套的虚拟背景,如图4所示的云彩、羊、帐篷等,显示在相应的窗口。
作为一种可选的方案,在本实施例中,上述第三显示单元包括:定位识别模块,用于定位识别当前目标场景下的虚拟角色对应的表演者的五官和脸部表情;第二获取模块,用于根据表演者的五官和脸部表情,获取表演者对应的虚拟角色的虚拟角色形象;第二显示模块,用于在客户端将虚拟背景与虚拟角色形象叠加显示。
作为一种可选的方案,在本实施例中,上述定位识别模块包括:定位子模块,用于通过五官定位技术定位当前目标场景下的虚拟角色对应的表演者的五官;识别子模块,用于通过人脸识别技术识别当前目标场景下的虚拟角色对应的表演者的脸部表情。
具体结合以下示例进行说明,如图4所示,客户端402通过可以通过摄像头结合五官定位和人脸识别技术,定位识别表演者的五官和脸部表情,并通过AR技术触发虚拟形象表情,同时叠加虚拟背景,一并呈现在客户端的相应界面上。
作为一种可选的方案,在本实施例中,上述装置还包括:接收单元,用于接收客户端发送的第二请求,其中,第二请求用于请求当前目标场景对应的虚拟背景;接收单元,用于向客户端发送响应第二请求返回的虚拟背景。
根据本发明的实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,接收从客户端发送的第一请求,其中,第一请求用于请求在客户端上显示的当前目标场景中开始表演;
S2,在客户端上显示与当前目标场景相关的第一信息;
S3,确定接收到客户端识别的与第一信息相关的语音信息后,在客户端上显示与当前目标场景和第一信息相关的第二信息;
S4,确定接收到与当前目标场景相关的所有信息相对应的语音信息后,生成互动视频并在客户端进行展示互动视频。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:确定接收到客户端识别的与第一信息相关的语音信息包括:
S1,在客户端上检测到语音信息;
S2,检测由语音信息识别出的文本是否与第一信息匹配;
S3,在检测结果为是的情况下,确定接收到客户端识别的与第一信息相关的语音信息。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:检测由语音信息识别出的文本是否与第一台词信息匹配:
S1,在客户端上检测由语音信息识别出的文本是否与第一信息匹配;
S2,在由语音信息识别出的文本与第一信息匹配的情况下,接收客户端发送的第二请求,其中,第二请求用于请求服务器发送第二信息。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:检测由语音信息识别出的文本是否与第一信息匹配包括:
S1,接收客户端发送的语音信息;
S2,确定语音信息对应的对比结果,并发送给客户端,其中,比对结果用于指示由语音信息识别出的文本是否与第一信息匹配。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:检测由语音信息识别出的文本是否与第一信息匹配包括:
S1,逐一检测由语音信息识别出的文本的第一预定字符是否与第一信息中的第二预定字符匹配;
S2,在第一预定字符与第二预定字符匹配的情况下,将第一信息的第二预定字符的显性属性进行替换。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:在客户端上显示与当前目标场景和第一信息相关的第二信息包括:
S1,在第一信息的字符的显性属性均被替换的情况下,在客户端上显示与当前目标场景和第一信息相关的第二信息。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:在接收客户端发送的第一请求之前,还包括:
S1,在客户端显示当前目标场景对应的虚拟背景。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:在客户端上显示与当前目标场景相关的第一信息之后,还包括:
S1,定位识别当前目标场景下的虚拟角色对应的表演者的五官和脸部表情,其中,虚拟角色为第一信息对应的角色;
S2,根据表演者的五官和脸部表情,获取表演者对应的虚拟角色的虚拟角色形象;
S3,在客户端将虚拟背景与虚拟角色形象叠加显示。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:定位识别当前目标场景下的虚拟角色对应的表演者的五官和脸部表情包括:
S1,通过五官定位技术定位当前目标场景下的虚拟角色对应的表演者的五官;
S2,通过人脸识别技术识别当前目标场景下的虚拟角色对应的表演者的脸部表情。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:在客户端显示当前目标场景对应的虚拟背景之前,还包括:
S1,接收客户端发送的第二请求,其中,第二请求用于请求当前目标场景对应的虚拟背景;
S2,向客户端发送响应第二请求返回的虚拟背景。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
根据本发明实施例的又一个方面,还提供了一种用于实施上述信息显示方法的电子装置,如图24所示,该电子装置包括:处理器2402、存储器2404,可选地,所述装置还包括:显示器2406、用户接口2408、传输装置2410、传感器2412等。该存储器中存储有计算机程序,该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,接收从客户端发送的第一请求,其中,第一请求用于请求在客户端上显示的当前目标场景中开始表演;
S2,在客户端上显示与当前目标场景相关的第一信息;
S3,确定接收到客户端识别的与第一信息相关的语音信息后,在客户端上显示与当前目标场景和第一信息相关的第二信息;
S4,确定接收到与当前目标场景相关的所有信息相对应的语音信息后,生成互动视频并在客户端进行展示互动视频。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:确定接收到客户端识别的与第一信息相关的语音信息包括:
S1,在客户端上检测到语音信息;
S2,检测由语音信息识别出的文本是否与第一信息匹配;
S3,在检测结果为是的情况下,确定接收到客户端识别的与第一信息相关的语音信息。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:检测由语音信息识别出的文本是否与第一台词信息匹配:
S1,在客户端上检测由语音信息识别出的文本是否与第一信息匹配;
S2,在由语音信息识别出的文本与第一信息匹配的情况下,接收客户端发送的第二请求,其中,第二请求用于请求服务器发送第二信息。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:检测由语音信息识别出的文本是否与第一信息匹配包括:
S1,接收客户端发送的语音信息;
S2,确定语音信息对应的对比结果,并发送给客户端,其中,比对结果用于指示由语音信息识别出的文本是否与第一信息匹配。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:检测由语音信息识别出的文本是否与第一信息匹配包括:
S1,逐一检测由语音信息识别出的文本的第一预定字符是否与第一信息中的第二预定字符匹配;
S2,在第一预定字符与第二预定字符匹配的情况下,将第一信息的第二预定字符的显性属性进行替换。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:在客户端上显示与当前目标场景和第一信息相关的第二信息包括:
S1,在第一信息的字符的显性属性均被替换的情况下,在客户端上显示与当前目标场景和第一信息相关的第二信息。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:在接收客户端发送的第一请求之前,还包括:
S1,在客户端显示当前目标场景对应的虚拟背景。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:在客户端上显示与当前目标场景相关的第一信息之后,还包括:
S1,定位识别当前目标场景下的虚拟角色对应的表演者的五官和脸部表情,其中,虚拟角色为第一信息对应的角色;
S2,根据表演者的五官和脸部表情,获取表演者对应的虚拟角色的虚拟角色形象;
S3,在客户端将虚拟背景与虚拟角色形象叠加显示。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:定位识别当前目标场景下的虚拟角色对应的表演者的五官和脸部表情包括:
S1,通过五官定位技术定位当前目标场景下的虚拟角色对应的表演者的五官;
S2,通过人脸识别技术识别当前目标场景下的虚拟角色对应的表演者的脸部表情。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:在客户端显示当前目标场景对应的虚拟背景之前,还包括:
S1,接收客户端发送的第二请求,其中,第二请求用于请求当前目标场景对应的虚拟背景;
S2,向客户端发送响应第二请求返回的虚拟背景。
可选地,本领域普通技术人员可以理解,图24所示的结构仅为示意,电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图24其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图24中所示更多或者更少的组件(如网络接口等),或者具有与图24所示不同的配置。
其中,存储器2404可用于存储软件程序以及模块,如本发明实施例中的台词显示方法和装置对应的程序指令/模块,处理器2402通过运行存储在存储器2404内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述台词显示方法。存储器2404可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器2404可进一步包括相对于处理器2402远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述的传输装置2410用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置2410包括一个网络适配器(NetworkInterface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置2410为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
上述用户接口2408,用于获取输入的操作指令,其中,例如表演开始请求等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (13)

1.一种互动视频生成方法,其特征在于,包括:
接收客户端发送的第一请求,其中,所述第一请求用于请求在所述客户端上显示的当前目标场景中开始表演;
在所述客户端上显示与所述当前目标场景相关的第一信息;
确定接收到所述客户端识别的与第一信息相关的语音信息后,逐一检测由所述语音信息识别出的文本的第一预定字符与所述第一信息中的第二预定字符;
在所述第一预定字符与所述第二预定字符匹配的情况下,将所述第一信息的第二预定字符的显性属性进行替换;
在所述第一信息的字符的显性属性均被替换的情况下,在所述客户端上显示与所述当前目标场景和所述第一信息相关的第二信息;
在所述第一信息的字符的显性属性存在未被替换的情况下,在所述客户端上持续显示所述第一信息;
确定接收到与所述当前目标场景相关的所有信息相对应的语音信息后,生成互动视频并在客户端进行展示所述互动视频。
2.根据权利要求1所述的方法,其特征在于,所述确定接收到所述客户端识别的与第一信息相关的语音信息包括:
在所述客户端上检测到所述语音信息;
检测由所述语音信息识别出的所述文本是否与所述第一信息匹配;
在检测结果为是的情况下,确定接收到所述客户端识别的与第一信息相关的语音信息。
3.根据权利要求2所述的方法,其特征在于,检测由所述语音信息识别出的所述文本是否与所述第一信息匹配包括:
在所述客户端上检测由所述语音信息识别出的所述文本是否与所述第一信息匹配;
在由所述语音信息识别出的所述文本与所述第一信息匹配的情况下,接收所述客户端发送的第二请求,其中,所述第二请求用于请求服务器发送所述第二信息。
4.根据权利要求2所述的方法,其特征在于,检测由所述语音信息识别出的所述文本是否与所述第一信息匹配包括:
接收所述客户端发送的所述语音信息;
确定所述语音信息对应的对比结果,并发送给所述客户端,其中,所述对比结果用于指示由所述语音信息识别出的所述文本是否与所述第一信息匹配。
5.根据权利要求1所述的方法,其特征在于,在所述接收客户端发送的第一请求之前,还包括:
在所述客户端显示所述当前目标场景对应的虚拟背景。
6.根据权利要求5所述的方法,其特征在于,所述在所述客户端上显示与所述当前目标场景相关的第一信息之后,还包括:
定位识别所述当前目标场景下的虚拟角色对应的表演者的五官和脸部表情,其中,所述虚拟角色为所述第一信息对应的角色;
根据所述表演者的五官和脸部表情,获取所述表演者对应的虚拟角色的虚拟角色形象;
在所述客户端将所述虚拟背景与所述虚拟角色形象叠加显示。
7.根据权利要求6所述的方法,其特征在于,所述定位识别所述当前目标场景下的虚拟角色对应的表演者的五官和脸部表情包括:
通过五官定位技术定位所述当前目标场景下的虚拟角色对应的表演者的五官;
通过人脸识别技术识别所述当前目标场景下的虚拟角色对应的表演者的脸部表情。
8.根据权利要求7所述的方法,其特征在于,在所述客户端显示所述当前目标场景对应的虚拟背景之前,还包括:
接收所述客户端发送的第二请求,其中,所述第二请求用于请求所述当前目标场景对应的虚拟背景;
向所述客户端发送响应所述第二请求返回的所述虚拟背景。
9.一种互动视频生成装置,其特征在于,包括:
第一接收单元,用于接收从客户端发送的第一请求,其中,所述第一请求用于请求在所述客户端上显示的当前目标场景中开始表演;
第一显示单元,用于在所述客户端上显示与所述当前目标场景相关的第一信息;
所述装置,用于确定接收到所述客户端识别的与第一信息相关的语音信息后,逐一检测由所述语音信息识别出的文本的第一预定字符与所述第一信息中的第二预定字符;在所述第一预定字符与所述第二预定字符匹配的情况下,将所述第一信息的第二预定字符的显性属性进行替换;在所述第一信息的字符的显性属性均被替换的情况下,在所述客户端上显示与所述当前目标场景和所述第一信息相关的第二信息;
所述装置,还用于在所述第一信息的字符的显性属性存在未被替换的情况下,在所述客户端上持续显示所述第一信息;
生成单元,用于确定接收到与所述当前目标场景相关的所有信息相对应的语音信息后,生成互动视频并在客户端进行展示所述互动视频。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
检测单元,用于在所述客户端上检测到所述语音信息;
匹配单元,用于检测由所述语音信息识别出的所述文本是否与所述第一信息匹配;
确定单元,用于在检测结果为是的情况下,确定接收到所述客户端识别的与第一信息相关的语音信息。
11.根据权利要求9所述的装置,其特征在于,所述装置还包括:
第三显示单元,用于在所述客户端显示所述当前目标场景对应的虚拟背景。
12.根据权利要求11所述的装置,其特征在于,所述第三显示单元包括:
定位识别模块,用于定位识别所述当前目标场景下的虚拟角色对应的表演者的五官和脸部表情,其中,所述虚拟角色为所述第一信息对应的角色;
第二获取模块,用于根据所述表演者的五官和脸部表情,获取所述表演者对应的虚拟角色的虚拟角色形象;
第二显示模块,用于在所述客户端将所述虚拟背景与所述虚拟角色形象叠加显示。
13.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至8任一项中所述的方法。
CN201810444926.8A 2018-05-10 2018-05-10 互动视频生成方法及装置、存储介质 Active CN110472099B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810444926.8A CN110472099B (zh) 2018-05-10 2018-05-10 互动视频生成方法及装置、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810444926.8A CN110472099B (zh) 2018-05-10 2018-05-10 互动视频生成方法及装置、存储介质

Publications (2)

Publication Number Publication Date
CN110472099A CN110472099A (zh) 2019-11-19
CN110472099B true CN110472099B (zh) 2023-07-14

Family

ID=68504194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810444926.8A Active CN110472099B (zh) 2018-05-10 2018-05-10 互动视频生成方法及装置、存储介质

Country Status (1)

Country Link
CN (1) CN110472099B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113311936B (zh) * 2020-02-27 2022-12-02 中移(成都)信息通信科技有限公司 基于ar的语音点评方法、装置、设备及存储介质
CN111372119B (zh) * 2020-04-17 2022-07-08 维沃移动通信有限公司 多媒体数据录制方法、装置及电子设备
CN112150583B (zh) * 2020-09-02 2024-07-23 广东小天才科技有限公司 一种口语发音测评方法及终端设备
CN112712738B (zh) * 2020-10-08 2023-07-21 胡振刚 学生显示处理方法和装置、电子装置
CN115239916A (zh) * 2021-04-22 2022-10-25 北京字节跳动网络技术有限公司 虚拟形象的互动方法、装置和设备
CN114047814B (zh) * 2021-09-14 2023-08-29 武汉灏存科技有限公司 一种交互式体验系统及方法
CN116764240A (zh) * 2022-03-10 2023-09-19 腾讯科技(深圳)有限公司 虚拟场景中的表演录制方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004037813A (ja) * 2002-07-03 2004-02-05 Auto Network Gijutsu Kenkyusho:Kk 車載用音声認識装置およびそれを用いた音声認識システム
US7127403B1 (en) * 1999-09-13 2006-10-24 Microstrategy, Inc. System and method for personalizing an interactive voice broadcast of a voice service based on particulars of a request
KR101605739B1 (ko) * 2015-03-09 2016-03-28 주식회사 아이엔지 공연 서비스 제공 방법
CN107392783A (zh) * 2017-07-05 2017-11-24 龚少卓 基于虚拟现实的社交方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4128326B2 (ja) * 2000-12-18 2008-07-30 株式会社バンダイナムコゲームス 遊技装置、遊技装置の制御方法、及びそのプログラムを記録した記録媒体
US20090300144A1 (en) * 2008-06-03 2009-12-03 Sony Computer Entertainment Inc. Hint-based streaming of auxiliary content assets for an interactive environment
CN102036051A (zh) * 2010-12-20 2011-04-27 华为终端有限公司 实现视频会议中提词的方法以及装置
CN106789991B (zh) * 2016-12-09 2021-06-22 福建星网视易信息系统有限公司 一种基于虚拟场景的多人互动网络直播方法及系统
CN107248195A (zh) * 2017-05-31 2017-10-13 珠海金山网络游戏科技有限公司 一种增强现实的主播方法、装置和系统
CN107277599A (zh) * 2017-05-31 2017-10-20 珠海金山网络游戏科技有限公司 一种虚拟现实的直播方法、装置和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7127403B1 (en) * 1999-09-13 2006-10-24 Microstrategy, Inc. System and method for personalizing an interactive voice broadcast of a voice service based on particulars of a request
JP2004037813A (ja) * 2002-07-03 2004-02-05 Auto Network Gijutsu Kenkyusho:Kk 車載用音声認識装置およびそれを用いた音声認識システム
KR101605739B1 (ko) * 2015-03-09 2016-03-28 주식회사 아이엔지 공연 서비스 제공 방법
CN107392783A (zh) * 2017-07-05 2017-11-24 龚少卓 基于虚拟现实的社交方法及装置

Also Published As

Publication number Publication date
CN110472099A (zh) 2019-11-19

Similar Documents

Publication Publication Date Title
CN110472099B (zh) 互动视频生成方法及装置、存储介质
CN113240782B (zh) 基于虚拟角色的流媒体生成方法及装置
CN112714330B (zh) 基于连麦直播的礼物赠送方法、装置及电子设备
CN111010589B (zh) 基于人工智能的直播方法、装置、设备及存储介质
CN105608715B (zh) 一种在线合影方法及系统
CN110703913B (zh) 对象交互方法和装置、存储介质及电子装置
US20150193970A1 (en) Video playing method and system based on augmented reality technology and mobile terminal
US11524229B2 (en) Methods, systems, and media for enhancing multiplayer game sessions with asymmetric information
CN105740029A (zh) 一种内容呈现的方法、用户设备及系统
CN112188267B (zh) 视频播放方法、装置和设备及计算机存储介质
CN116095266A (zh) 同声传译方法和系统、存储介质及电子装置
CN112866577B (zh) 图像的处理方法、装置、计算机可读介质及电子设备
CN110545442A (zh) 一种直播互动方法、装置、电子设备及可读存储介质
CN112188223B (zh) 直播视频播放方法、装置、设备及介质
CN114430494B (zh) 界面显示方法、装置、设备及存储介质
CN113660503B (zh) 同屏互动控制方法及装置、电子设备、存储介质
US20170278130A1 (en) Method and Electronic Device for Matching Advertisement Data
CN112383809A (zh) 字幕显示方法、装置和存储介质
CN113840177B (zh) 直播互动方法、装置、存储介质与电子设备
KR102576977B1 (ko) 대화형 교육 서비스를 제공하는 전자 장치 및 그 동작 방법
CN109788327B (zh) 多屏互动方法、装置及电子设备
CN114697685A (zh) 解说视频生成方法、装置、服务器及存储介质
CN116962746A (zh) 基于连麦直播的线上合唱方法、装置及线上合唱系统
CN114760498A (zh) 连麦直播下的合成动作互动方法、系统、介质以及设备
CN114425162A (zh) 一种视频处理方法和相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant