CN114139525A - 数据处理方法、装置、电子设备及计算机存储介质 - Google Patents

数据处理方法、装置、电子设备及计算机存储介质 Download PDF

Info

Publication number
CN114139525A
CN114139525A CN202010814986.1A CN202010814986A CN114139525A CN 114139525 A CN114139525 A CN 114139525A CN 202010814986 A CN202010814986 A CN 202010814986A CN 114139525 A CN114139525 A CN 114139525A
Authority
CN
China
Prior art keywords
behavior
target behavior
preset text
data
virtual character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010814986.1A
Other languages
English (en)
Inventor
王甫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202010814986.1A priority Critical patent/CN114139525A/zh
Publication of CN114139525A publication Critical patent/CN114139525A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes

Abstract

本发明实施例提供了一种数据处理方法、装置、电子设备及计算机存储介质。数据处理方法,包括:获得用于虚拟角色的预设文本中语句的意图信息,意图信息用于指示虚拟角色的行为目的;根据语句的意图信息,从预设的虚拟角色的行为素材中,确定与语句匹配的目标行为素材;根据语句在预设文本中的顺序,将语句匹配的目标行为素材与预设文本中其他语句匹配的目标行为素材进行拼接处理,以获得与预设文本对应的虚拟角色的行为数据。通过本实施例提供的方案,可以降低虚拟角色的成本,且使得虚拟角色生动真实,提升了用户的观看体验。

Description

数据处理方法、装置、电子设备及计算机存储介质
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种数据处理方法、装置、电子设备及计算机存储介质。
背景技术
随着视频技术的发展,虚拟主播的应用越来越广泛。如在电商场景中,通过虚拟主播(或称为虚拟角色)进行直播,并在直播过程中由虚拟主播介绍商品、与观众互动。
然而,虚拟主播的动作一般是由佩戴有感知设备的工作人员完成的,即虚拟主播的人工成本较高;且针对不同的商品等,已经获取的虚拟主播的动作无法重复多次使用,即虚拟主播动作的可复用性较差。基于上述原因,导致虚拟主播的成本较高。
发明内容
有鉴于此,本发明实施例提供一种数据处理方案,以至少部分解决上述问题。
根据本发明实施例的第一方面,提供了一种数据处理方法,包括:获得用于虚拟角色的预设文本中语句的意图信息,所述意图信息用于指示虚拟角色的行为目的;根据所述语句的意图信息,从预设的虚拟角色的行为素材中,确定与所述语句匹配的目标行为素材;根据所述语句在所述预设文本中的顺序,将所述语句匹配的目标行为素材与所述预设文本中其他语句匹配的目标行为素材进行拼接处理,以获得与所述预设文本对应的虚拟角色的行为数据。
根据本发明实施例的第二方面,提供了一种数据处理装置,包括:意图信息获得模块,用于获得用于虚拟角色的预设文本中语句的意图信息,所述意图信息用于指示虚拟角色的行为目的;匹配模块,用于根据所述语句的意图信息,从预设的虚拟角色的行为素材中,确定与所述语句匹配的目标行为素材;行为数据生成模块,用于根据所述语句在所述预设文本中的顺序,将所述语句匹配的目标行为素材与所述预设文本中其他语句匹配的目标行为素材进行拼接处理,以获得与所述预设文本对应的虚拟角色的行为数据。
根据本发明实施例的第三方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面所述的数据处理方法对应的操作。
根据本发明实施例的第四方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的数据处理方法。
根据本发明实施例提供的数据处理方案,可以通过获得用于虚拟角色的预设文本中语句的意图信息,所述意图信息用于指示虚拟角色的行为目的;由此,可以根据所述语句的意图信息,从预设的虚拟角色的行为素材中,确定与所述语句匹配的目标行为素材,再根据所述语句在所述预设文本中的顺序,将所述语句匹配的目标行为素材与所述预设文本中其他语句匹配的目标行为素材进行拼接处理,以获得与所述预设文本对应的虚拟角色的行为数据,从而可以根据行为数据确定虚拟角色的动作,降低了虚拟角色的成本;且,可以根据预设文本生成对应的行为数据,使得行为数据与预设文本关联性较高,虚拟角色在按照预设文本进行对话时,虚拟角色的肢体动作、表情动作可以与根据预设文本确定的行为数据对应,可以使得虚拟角色的行为与其对话的关联性较高,且与其对话表达的意图相对应,进而使得虚拟角色更加生动真实,提升了用户的观看体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1A为本申请实施例一提供的一种数据处理方法的步骤流程图;
图1B为图1A所示实施例中的一种场景示例的示意图;
图2A为本申请实施例二提供的一种数据处理方法的步骤流程图;
图2B为图2A所示实施例中的一种确定触发时间的步骤流程图;
图2C为图2A所示实施例中的一种获得行为数据的步骤流程图;
图2D为图2A所示实施例中的一种素材序列的示意图;
图2E为图2A所示实施例中的一种填充后的素材序列的示意图;
图2F为图2A所示实施例中的一种裁剪后的素材序列的示意图;
图3A为本申请实施例三提供的一种数据处理方法的步骤流程图;
图3B为图3A所示实施例中的一种标签层级目录的示意图;
图3C为图3A所示实施例中的一种标签分类示意图;
图3D为图3A所示实施例中的一种识别后的预设文本的示意图;
图3E为图3A所示实施例中的一种界面示意图;
图4为根据本发明实施例四的一种数据处理装置的结构框图;
图5为根据本发明实施例五的一种电子设备的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本发明实施例中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明实施例一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明实施例保护的范围。
下面结合本发明实施例附图进一步说明本发明实施例具体实现。
实施例一
图1A为本申请实施例一提供的一种数据处理方法的流程示意图,如图所示,数据处理方法包括:
S101、获得用于虚拟角色的预设文本中语句的意图信息,所述意图信息用于指示虚拟角色的行为目的。
虚拟角色是指通过安装于终端设备的应用程序生产的角色,或者通过AI机器人等模拟出来的角色。虚拟角色可以为虚拟人物、虚拟动物等,本实施例对此不进行限定。虚拟角色可以包括一个或多个,本实施例对此同样不进行限定。
虚拟角色的预设文本可以为虚拟角色的剧本,即虚拟角色的对话内容。预设文本可以由专门的工作人员进行编写,也可以通过计算机自动生成,本实施例对此不进行限定。
预设文本中可以包括一个或多个语句,语句中的部分或全部可以对应有意图信息。本实施例中,针对用于虚拟角色的预设文本中的任意语句,可以确定语句的意图信息。
意图信息可以用于指示虚拟角色的行为目的。意图信息具体可以为虚拟角色的意图、虚拟角色的情绪等,例如,虚拟角色的希望引导用户关注商品的意图、虚拟人物向用户介绍某一物品的优点时的情绪为高兴等。当然,上述仅为举例说明,本实施例对此不进行限定。
另外需要说明的是,在获取有相关版权的情况下,虚拟角色的形象可以包括明星、名人、动漫人物等的形象,虚拟角色的动作可以为经典的或者个性化的动作;另外,虚拟角色的形象、动作等可以包括多个版本,例如可以包括能够被较多用户使用的通用版本,还可以包括为各个用户针对性定制的专用版本等,本实施例对此不进行限定。
S102、根据所述语句的意图信息,从预设的虚拟角色的行为素材中,确定与所述语句匹配的目标行为素材。
本实施例中,可以预先建立预设的虚拟角色的行为素材的数据库,数据库中可以存储有多种意图信息对应的预设的虚拟角色的行为素材。
行为素材具体可以为虚拟角色的肢体行为对应的行为素材,也可以为表情动作对应的行为素材,还可以为其他行为对应的行为素材,本实施例对此不进行限定。
示例的,如果意图信息为“引导下单”,则对应的行为素材可以为通过手指指示“加入购物车”按钮,以提醒用户点击该按钮;如果意图信息为“介绍下一商品”,则对应的行为素材可为指示下一个商品出现。
虚拟角色的行为素材可为虚拟角色执行某一行为的视频帧,也可以为指示虚拟人物进行某一行为的指示信息等,例如,指示虚拟人物上的节点的移动轨迹等,本实施例对此不进行限定。
在确定语句的意图信息后,可以根据意图信息,从预设的虚拟角色的行为素材中,确定出与语句对应的目标行为素材。例如,预设的虚拟角色的行为素材可以设置有对应的意图信息标签,在获取到语句的意图信息后,可以直接将语句的意图信息与意图信息标签进行匹配,根据匹配结果确定语句匹配的目标行为素材。应当理解的是,上述仅为举例说明,并不作为本申请的限定。
S103、根据所述语句在所述预设文本中的顺序,将所述语句匹配的目标行为素材与所述预设文本中其他语句匹配的目标行为素材进行拼接处理,以获得与所述预设文本对应的虚拟角色的行为数据。
针对预设文本中的任意语句,通过按照语句在预设文本中的顺序,将所述语句匹配的目标行为素材与所述预设文本中其他语句匹配的目标行为素材进行拼接处理,可以获得预设文本对应的虚拟角色的行为数据。
目标行为素材为视频帧时,行为数据具体可以包括:根据语句在预设文本中的顺序,将所述语句匹配的目标行为素材与预设文本中其他语句匹配的目标行为素材进行拼接处理,获得的目标行为素材组成的序列;也可以为根据语句在预设文本中的顺序,将所述语句匹配的目标行为素材与预设文本中其他语句匹配的目标行为素材进行拼接处理后获得的图像序列。
由此,在虚拟角色按照预设文本进行对话时,可以根据行为数据确定虚拟角色的动作,降低了虚拟角色的成本;且,虚拟角色的动作可以与获得的虚拟角色的行为数据对应,由于行为数据是根据预设文本确定的,则虚拟角色的动作与预设文本关联性较高,从而使得虚拟角色更加生动真实,以提升用户的观看体验。
当然,本领域的技术人员应当理解,上述仅为举例说明,并不作为本申请的限定。
参见图1B,下面通过一种具体的使用场景,对本实施例的方案进行示例性说明。
如图1B所示,预设文本中包括5句话,语句对应的意图信息分别为意图A、B、C、D、E。
根据确定的意图信息,从预设的虚拟角色的行为素材中,确定的与5句话分别匹配的目标行为素材为行为素材A、B、C、D、E。根据语句A在所述预设文本中的顺序,将语句A匹配的目标行为素材A与预设文本中其他语句匹配的目标行为素材B、C、D、E进行拼接处理,可以获得虚拟角色的行为数据。
本实施例提供的方案,可以通过获得用于虚拟角色的预设文本中语句的意图信息,所述意图信息用于指示虚拟角色的行为目的;由此,可以根据所述语句的意图信息,从预设的虚拟角色的行为素材中,确定与所述语句匹配的目标行为素材,再根据所述语句在所述预设文本中的顺序,将所述语句匹配的目标行为素材与所述预设文本中其他语句匹配的目标行为素材进行拼接处理,以获得与所述预设文本对应的虚拟角色的行为数据,从而可以根据行为数据确定虚拟角色的动作,降低了虚拟角色的成本;且,可以根据预设文本中生成对应的行为数据,使得行为数据与预设文本关联性较高,虚拟角色在按照预设文本进行对话时,虚拟角色的肢体动作、表情动作可以与根据预设文本确定的行为数据对应,可以使得虚拟角色的行为与其对话的关联性较高,且与其对话表达的意图相对应,进而使得虚拟角色更加生动真实,提升了用户的观看体验。
本实施例提供的方案,可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。
实施例二
图2A为本申请实施例二提供的一种数据处理方法的流程示意图,如图所示,数据处理方法包括:
S201、获得用于虚拟角色的预设文本中语句的意图信息,所述意图信息用于指示虚拟角色的行为目的。
本实施例中,意图信息具体可以包括意图标签和情绪标签。意图标签可以用于指示虚拟角色的目的,情绪标签可以用于指示用户进行这一行为的情绪。例如,虚拟角色介绍一商品的优点时,目的是为了引导话题,使得用户了解商品的优点,为了使得用户对商品的印象更加良好,虚拟角色介绍商品时应表达出对商品的喜爱之情,即对应的意图标签为引导话题,对应的情绪标签为喜欢。
示例的,如果语句为“刚刚介绍了这款商品的…之后介绍一下这款商品的…”,则语句的意图标签可以为“引导话题”,对应的情绪标签可以为“喜欢”;如果语句为“上面就是…,听完的宝宝们,是否更加心动了呢?”,语句的意图标签为“递进”,对应的情绪标签可以为“感动”。
另外需要说明的是,语句的意图信息可以包括意图标签,或者可以包括意图标签和情绪标签,本实施例对此不进行限定。
S202、根据所述语句的意图信息,从预设的虚拟角色的行为素材中,确定与所述语句匹配的目标行为素材。
本步骤的具体实现方式参考上述实施例,在此不再赘述。
S203、根据所述预设本文的语音数据,确定所述语句在所述语音数据中的时间信息。
本实施例中,预设本文的语音数据可以为将预设本文转换为音频获得的语音数据;或者可以通过人工朗读预设文本并进行录制,获得语音数据等,本实施例对此不进行限定。
语句在所述语音数据中的时间信息,可以包括语句对应的语音在总的语音数据中时间信息,时间信息可以例如语音开始时间、语音结束时间等,时间信息具体可以为语音数据的时间戳;时间信息还可以包括语句中的每个字在语音数据中的时间戳等。
示例的,预设本文的语音数据可以为时长为3分钟(min)的语音数据,其中一个语句对应的语音,在语音数据中的开始时间对应的时间戳为01:11,结束时间对应的时间戳为01:30。应当理解的是,上述仅为举例说明,并不作为本申请的限定。
S204、按照所述语句在所述语音数据中的时间信息,确定所述语句对应的目标行为素材的触发时间。
确定时间信息后,可以根据语句在所述语音数据中的时间信息确定语句对应的目标行为素材的触发时间,例如,可以将开始时间确定为目标行为素材的触发时间、将结束时间作为目标行为素材的触发时间、从开始时间到结束时间之间的某一时间点作为目标行为素材的触发时间等。
可选地,本实施例中,语句中可以包括关键词,目标行为素材中包括与关键词匹配的关键帧,对应的,如图2B所示,步骤S204具体可以包括:
S2041、将所述语句的所述时间信息中携带的所述语句中的关键词的开始时间,确定为对应的所述目标行为素材中关键帧的触发时间。
语句中的关键词,可以为用于指示动作的词、能够指示虚拟角色的行为目的词等;具体关键词的确定方法可由本领域的技术人员确定,在此不再赘述。
语句在语音数据中的时间信息可以包括语句中的每个字的时间戳,关键词的开始时间可以为关键词中的第一个字的时间戳。
目标行为素材可以包括多个视频帧,多个视频帧中包括一个或多个关键帧。例如,语句为“亲爱的宝宝们,欢迎来到…,爱你们呦”对应的目标行为素材为“比心”动作的视频帧,其中的关键帧可以包括:开始比心动作对应的视频帧或者比心动作完成对应的视频帧等。
为了使得虚拟角色更加生动,在虚拟角色所说的对话内容为语句中的关键词时,希望可以向用户展示目标行为素材中的关键帧,为此,本实施例中,将所述语句的所述时间信息中携带的所述语句中的关键词的开始时间,确定为对应的所述目标行为素材中关键帧的触发时间。示例的,将关键词“爱你们呦”的开始时间确定为“比心”动作的视频帧中关键帧的触发时间,使得虚拟角色在说出“爱你们呦”中的“爱”字时,同步完成比心动作。
S2042、根据所述关键帧与所述目标行为素材的起始帧之间的帧数、和所述关键帧的触发时间,确定所述目标行为素材的触发时间。
由于关键帧可能位于目标行为素材的开头、中间或结尾处,即关键帧目标行为素材中的位置不固定,导致关键帧的触发时间不能作为目标行为素材的触发时间。为此,本实施例中,根据所述关键帧与所述目标行为素材的起始帧之间的帧数、和所述关键帧的触发时间,确定所述目标行为素材的触发时间。
目标行为素材的起始帧可以为目标行为素材的第一帧视频帧,即目标行为素材被播放时的第一帧视频帧,目标行为素材的起始帧的播放时间可以直接作为目标行为素材的触发时间。
本实施例中,目标行为素材的起始帧与关键帧可以相同,也可以不同,本实施例对此不进行限定。
当起始帧与关键帧相同时,步骤S2042中确定的目标行为素材的触发时间为关键帧的触发时间。
当起始帧与关键帧不同时,根据起始帧和关键帧之间的帧数,可以确定起始帧和关键帧之间的间隔时间,由此,可以在关键帧的触发时间基础上减去间隔时间,确定目标行为素材的触发时间。
示例的,语句为“简约时尚的…更好地修饰脸型”时,对应的目标行为素材为“竖大拇指”动作的视频帧。语句中的关键词可以为“更好地”,当虚拟角色说的对话为“更”字时,展示出竖大拇指动作完成对应的视频帧。
为此,可以确定目标行为素材中的关键帧为竖大拇指动作完成对应的视频帧,并将“更”字对应的时间戳t1确定为这一关键帧的触发时间,即将竖大拇指动作完成对应的视频帧A与语音数据中的“更”字对齐。
然后可以根据目标行为素材中的初始帧与竖大拇指动作完成的视频帧之间的帧数,计算间隔时间t2,确定t1-t2为目标行为素材的触发时间。
通过将所述时间信息中携带的所述语句中的关键词的开始时间,确定为对应的所述目标行为素材中关键帧的触发时间,可以将目标行为素材中的关键帧与语音中的关键词进行对齐,可以使得虚拟角色的行为与虚拟人物所说的内容的关联性更高,增加了虚拟角色的真实程度,进而提高了用户的观看体验。
S205、根据所述目标行为素材的触发时间,将所述语句匹配的目标行为素材与所述预设文本中其他语句匹配的目标行为素材进行拼接处理,以获得与所述预设文本对应的虚拟角色的行为数据。
确定目标行为素材的触发时间后,可以根据触发时间,对目标行为素材进行拼接,获得虚拟角色的行为数据。
示例的,如果目标行为素材包括10个,则可以将目标行为素材的ID值与其触发时间作为一组值,并按照目标行为素材的顺序进行排序后的序列数据作为行为数据。或者,如果目标行为素材包括10个,则可以按照目标行为素材的触发时间,将目标行为素材中包括的视频帧进行拼接,将拼接后获得的视频帧序列作为行为数据。
可选地,本实施例中,如图2C所示,步骤S205可以包括:
S2051、按照所述语句匹配的目标行为素材的触发时间和持续时间,以及所述预设文本中其他语句匹配的目标行为素材的触发时间和持续时间,拼接出素材序列数据。
目标行为素材的持续时间可以为播放目标行为素材的视频帧所需的时间。
示例的,本实施例中,预设文本的语音数据的时长为3min(即180s),预设文本的语句对应的目标行为素材可以包括5个,分别为目标行为素材A、B、C、D、E,其中,目标行为素材A的触发时间为00:00,持续时间为15s;目标行为素材B的触发时间为00:28,持续时间为40s;目标行为素材C的触发时间为01:00,持续时间为20s;目标行为素材D的触发时间为02:00,持续时间为35s;目标行为素材E的触发时间为02:30,持续时间为30s,则,拼接后的素材序列数据可以如图2D所示。
S2052、对所述素材序列数据进行填充处理和/或裁剪处理。
如图2D所示,拼接后的素材序列数据之间可以包括相邻两个目标行为素材之间间隔的空白时间段,还可以包括相邻两个目标行为素材重叠的重叠时间段。当然,本实施例的其他实现方式中,拼接后的素材序列数据之间可以包括空白时间段以及重叠时间段中的任意一种,或者两种都不包括,本实施例对此不进行限定。
针对空白时间段,可以对所述素材序列数据进行填充处理。具体的填充处理可以包括:针对所述素材序列数据中相邻两个目标行为素材之间间隔的空白时间段,从预设的行为素材中确定填充行为素材,并将所述填充行为素材填充在所述素材序列数据的所述空白时间段内,获得填充处理后的所述素材序列数据。
本实施例中,通过对空白时间段进行填充处理,可以通过填充行为素材将空白时间段前后的目标行为素材串联,保证了虚拟角色的行为的连贯性,进而提高了虚拟角色的真实性。
示例的,填充行为素材可以为预先设置的较为通用的动作对应的行为素材,例如,手臂在身前画半圆等动作。填充处理后的素材序列数据可以为图2E所示,将素材F、素材G分别填充在了两个空白时间段内。
进行填充时,可以直接将空白时间段的起始时间作为填充行为素材的触发时间。若填充行为素材的持续时间大于空白时间段,则可以通过后续的裁剪步骤进行裁剪;若填充行为素材的持续时间小于空白时间段,则可以在空白时间段内填充多个填充行为素材,使得填充后的素材序列数据中不包括空白时间段。
针对重叠时间段,可以对所述素材序列数据进行裁剪处理。具体的裁剪处理可以包括:针对所述素材序列数据中相邻两个所述目标行为素材重叠的重叠时间段,对重叠的相邻两个所述目标行为素材中的至少之一进行裁剪处理。
本实施例中,根据重叠时间段,对重叠的相邻两个所述目标行为素材中的至少之一进行裁剪处理,避免了由于目标行为素材之间的重叠导致的动作错误等情况,提高了虚拟角色的真实性。
示例的,对重叠的相邻两个所述目标行为素材中的至少之一进行裁剪处理,可以为:将相邻两个目标行为素材中某一个的与重叠时间段对应的视频帧裁剪掉;或者,对两个相邻的目标行为素材均进行裁剪处理,使得两者之间不存在重叠;或者,可以将相邻两个目标行为素材中与重叠时间段对应的视频帧裁剪掉,使得重叠时间段变为空白时间段,之后可以通过上述填充方案进行填充。裁切处理后的素材序列数据可以为图2F所示,分别将素材C和素材D进行了裁剪。
S2053、根据处理后的所述素材序列数据,获得所述预设文本对应的所述虚拟角色的行为数据。
本实施例中,通过对素材序列进行填充处理和/或裁剪处理,可以使得生成的行为数据较为真实且连贯,避免由于目标行为素材之间的空白导致的虚拟角色动作不连贯,或者避免由于目标行为素材之间的重叠导致的动作错误等情况,提高了虚拟角色的真实性。
本实施例提供的方案,可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。
实施例三
图3A为本申请实施例三提供的一种数据处理方法的流程示意图,本实施例中,以剧本为例,对本申请的方案进行示意性说明,如图所示,数据处理方法包括:
S301、根据文本样本,获得多个样本语句和所述样本语句对应的意图信息。
本实施例中,文本样本可以为智能剧本,也可以为编剧人员等编写的剧本。文本样本可以包括一个,也可以包括多个,文本样本可以为完整的剧本,也可为剧本的一部分,本实施例对此不进行限定。当然,文本样本也可以为其他,这也在本申请的保护范围内。
文本样本中可以包括多个样本语句以及标注后的样本语句对应的意图信息,意图信息可以包括样本语句的意图标签,或者可以包括样本语句的意图标签和情绪标签。
具体确定文本样本标签的过程,可以为生成文本样本的标签层级目录的过程,标签目录层级可以如图3B所示,“产品类型”可以为文本样本的类型,交互环节01、交互环节02可以为文本样本的交互环节,交互环节切片01为交互环节01的切片,“意图和情绪”为交互环节切片01对应的语句的标签,TTS为从文本到语音(Text To Speech),即将语句中包括的文本转换为语音,“表情”“行为”等可以为语句的意图标签以及情绪标签,例如,表情可以为“高兴”,行为可以为“引导”等,“场景”可以为交互环节的场景内容,场景内容具体可以包括弹幕、卡片、背景动效等。
本实施例中,确定文本样本的意图信息后,可以将意图信息相同的样本语句进行汇总,作为该意图信息的多个训练样本。
示例的,在确定文本样本的意图标签和情绪标签后,可以对标签进行分类汇总,图3C示出了一些标签分类汇总结果,示例的,标签可以包括情感性标签、通用性标签、叙述性标签、功能性标签,其中,情感性标签可以为与情感相关的标签,具体可以包括“高兴”、“极大”、“沮丧”等,通用性标签可以为较为通用的语句对应的标签,具体可以包括“待机”、“摸头”、“搓手”等,叙述性标签可以为与用于叙述内容的语句对应的标签,具体可以包括“举例”、“肯定”、“强调”等,功能性标签可以为与语言希望达到的功能相关的标签,具体可以包括“卖货”、“取出货品”、“引导下单”等。
S302、以所述意图信息和对应的样本语句作为训练样本,对用于识别所述预设文本中语句的意图信息的意图识别模型进行训练。
本实施例中的意图识别模型可以为任意的监督训练模型,本实施例对此不进行限定。另,具体训练方法可参考相关技术,本实施例在此不再赘述。
S303、针对意图信息,确定意图信息对应的行为素材数据库。
本实施例中,可以将意图信息发送给设计人员,设计人员可以针对意图信息,生成对应的行为素材,并保存至行为素材库。本实施例中,行为素材可以为设计人员绘制的动画素材。
在生成行为素材后,可以为行为素材增加数字标注,例如增加行为素材的持续时间,增加行为素材中的关键帧在行为素材中的触发时间等。
S304、获得用于虚拟角色的预设文本,将预设文本输入意图识别模型,通过意图识别模型对用于虚拟角色的预设文本中的语句进行意图识别,获得预设文本中语句的意图信息。
示例的,意图识别模型可以对语句进行打标,从而通过标记来表征意图信息,语句对应的标记可以包括意图标签,也可以包括意图标签以及情绪标签,本实施例对此不进行限定。
本实施例中,可以获取预设文本中部分语句的意图信息,也可以获取全部语句的意图信息,本实施例对此不进行限定。
示例的,可以将预设文本划分为多个交互环节,然后可以将每个交互环节的语句输入至意图识别模型,由此,可以分别确定多个交互环节的语句的用于表征意图信息的标签,然后根据标签,可以将交互环节划分为多个交互环节切片,从而生成预设文本对应的标签目录层级;或者,可以将预设文本输入至意图识别模型,由此确定预设文本中语句的用于表征意图信息的标签,再根据确定的标签对预设文本的意图进行解析,生成预设文本的标签目录层级。
示例的,识别后的预设文本可以如图3D所示,例如,“刚刚只是介绍了这件隔离产品的一部分特点哦”的意图标签为“引导话题”,未标注的部分语句的意图标签可以默认为通用性的标签。
S305、根据预设文本的语句对应的意图信息,从行为素材数据库中获取与语句对应的目标行为素材。
具体确定方法参考上述实施例,在此不再赘述。
具体地,本实施例中,步骤S305可以为:根据意图标签和情绪标签,选取对应的动画资源。
S306、根据所述语句在所述预设文本中的顺序,将所述语句匹配的目标行为素材与所述预设文本中其他语句匹配的目标行为素材进行拼接处理,以获得与所述预设文本对应的虚拟角色的行为数据。
本实施例中,可以将语句中关键词的开始时间,作为语句对应的目标行为素材中的关键帧的触发时间。示例的,如图3D所示,语句中存在底色的词为关键词,“刚刚只是介绍了这件产品的一部分特点哦”中存在底色的“刚刚只是”为关键词,则可以将“刚刚只是”的开始时间,作为“引导话题”的目标行为素材中的关键帧的触发时间。然后可以根据关键帧与目标行为素材的起始帧之间的帧数、和所述关键帧的触发时间,确定所述目标行为素材的触发时间。
确定目标行为素材的触发时间后,可以按照对应语句的持续时间和目标行为素材(例如动画资源)的持续时间,对目标行为素材进行处理,例如可以裁剪过长的目标行为素材或者在目标行为素材前后补充通用性的行为素材。
获得行为数据后,可以将行为数据与语音数据结合,进行对标触发,使得向用户展示的虚拟人物的行为与虚拟角色的对话存在较强的关联性。
示例的,如图3E所示,进行展示时,界面上方可以包括虚拟角色,虚拟角色下方可以包括虚拟角色的对话内容,即预设文本,图3E中的对话内容划分为了5个语句,分别为语句1-5,语句1的意图信息为“设问”,语句2的意图信息为“转折”,语句2的意图信息为“通用”,语句4的意图信息为“递进”,语句5的意图信息为“引导下单”,界面下方对应有5个语句对应的目标行为素材,分别为素材1-5。开始播放语句2“先不要急,我们再来看看这款毛针织衫的上身效果吧”时,素材2前端的黑色竖线标识素材2被触发。
本实施例提供的方案,在虚拟角色按照预设文本进行对话时,可以根据行为数据确定虚拟角色的动作,降低了虚拟角色的成本;且可以根据预设文本的语句生成对应的行为数据,使得行为数据与预设文本关联性较高,虚拟角色在按照预设文本进行对话时,虚拟角色的肢体动作、表情动作可以与根据预设文本确定的行为数据对应,可以使得虚拟角色的行为与其对话的关联性较高,且与其对话表达的意图相对应,进而使得虚拟角色更加生动真实,提升了用户的观看体验。
本实施例提供的方案,可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。
实施例四
图4为本申请实施例四提供的一种数据处理装置的结构示意图,如图所示,其包括:意图信息获得模块401、匹配模块402、行为数据生成模块403。
意图信息获得模块401,用于获得用于虚拟角色的预设文本中语句的意图信息,所述意图信息用于指示虚拟角色的行为目的;
匹配模块402,用于根据所述语句的意图信息,从预设的虚拟角色的行为素材中,确定与所述语句匹配的目标行为素材;
行为数据生成模块403,用于根据所述语句在所述预设文本中的顺序,将所述语句匹配的目标行为素材与所述预设文本中其他语句匹配的目标行为素材进行拼接处理,以获得与所述预设文本对应的虚拟角色的行为数据。
可选地,本申请任意实施例中,行为数据生成模块403,包括:时间信息确定模块4031,用于根据所述预设本文的语音数据,确定所述语句在所述语音数据中的时间信息;素材触发确定模块4032,用于按照所述语句在所述语音数据中的时间信息,确定所述语句对应的目标行为素材的触发时间;拼接模块4033,用于根据所述目标行为素材的触发时间,将所述语句匹配的目标行为素材与所述预设文本中其他语句匹配的目标行为素材进行拼接处理,以获得与所述预设文本对应的虚拟角色的行为数据。
可选地,本申请任意实施例中,素材触发确定模块,包括:关键帧触发确定模块,用于将所述语句的所述时间信息中携带的所述语句中的关键词的开始时间,确定为对应的所述目标行为素材中关键帧的触发时间;
素材触发时间确定模块,根据所述关键帧与所述目标行为素材的起始帧之间的帧数、和所述关键帧的触发时间,确定所述目标行为素材的触发时间。
可选地,本申请任意实施例中,拼接模块,包括:序列确定模块,用于按照所述语句匹配的目标行为素材的触发时间和持续时间,以及所述预设文本中其他语句匹配的目标行为素材的触发时间和持续时间,拼接出素材序列数据;处理模块,用于对所述素材序列数据进行填充处理和/或裁剪处理;生成模块,用于根据处理后的所述素材序列数据,获得所述预设文本对应的所述虚拟角色的行为数据。
可选地,本申请任意实施例中,处理模块用于:针对所述素材序列数据中相邻两个所述目标行为素材之间间隔的空白时间段,从预设的行为素材中确定填充行为素材,并将所述填充行为素材填充在所述素材序列数据的所述空白时间段内,获得填充处理后的所述素材序列数据。
可选地,本申请任意实施例中,处理模块用于:针对所述素材序列数据中相邻两个所述目标行为素材重叠的重叠时间段,对重叠的相邻两个所述目标行为素材中的至少之一进行裁剪处理。
可选地,本申请任意实施例中,数据处理装置还包括:样本确定模块404,用于根据文本样本,获得多个样本语句和所述样本语句对应的意图信息;训练模块405,用于以所述意图信息和对应的样本语句作为训练样本,对用于识别所述预设文本中语句的意图信息的意图识别模型进行训练。
本实施例的数据处理装置用于实现前述多个方法实施例中相应的数据处理方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本实施例数据处理装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述,在此亦不再赘述。
实施例五
参照图5,示出了根据本发明实施例五的一种电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
如图5所示,该电子设备可以包括:处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。
其中:
处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。
通信接口504,用于与其它电子设备或服务器进行通信。
处理器502,用于执行程序510,具体可以执行上述数据处理方法实施例中的相关步骤。
具体地,程序510可以包括程序代码,该程序代码包括计算机操作指令。
处理器502可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器506,用于存放程序510。存储器506可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序510中各步骤的具体实现可以参见上述数据处理方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
需要指出,根据实施的需要,可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本发明实施例的目的。
上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的数据处理方法。此外,当通用计算机访问用于实现在此示出的数据处理方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的数据处理方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明实施例的范围。
以上实施方式仅用于说明本发明实施例,而并非对本发明实施例的限制,有关技术领域的普通技术人员,在不脱离本发明实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明实施例的范畴,本发明实施例的专利保护范围应由权利要求限定。

Claims (10)

1.一种数据处理方法,包括:
获得用于虚拟角色的预设文本中语句的意图信息,所述意图信息用于指示虚拟角色的行为目的;
根据所述语句的意图信息,从预设的虚拟角色的行为素材中,确定与所述语句匹配的目标行为素材;
根据所述语句在所述预设文本中的顺序,将所述语句匹配的目标行为素材与所述预设文本中其他语句匹配的目标行为素材进行拼接处理,以获得与所述预设文本对应的虚拟角色的行为数据。
2.根据权利要求1所述的方法,其中,所述根据所述语句在所述预设文本中的顺序,将所述语句匹配的目标行为素材与所述预设文本中其他语句匹配的目标行为素材进行拼接处理,以获得与所述预设文本对应的虚拟角色的行为数据,包括:
根据所述预设本文的语音数据,确定所述语句在所述语音数据中的时间信息;
按照所述语句在所述语音数据中的时间信息,确定所述语句对应的目标行为素材的触发时间;
根据所述目标行为素材的触发时间,将所述语句匹配的目标行为素材与所述预设文本中其他语句匹配的目标行为素材进行拼接处理,以获得与所述预设文本对应的虚拟角色的行为数据。
3.根据权利要求2所述的方法,其中,所述按照所述语句在所述语音数据中的时间信息,确定所述语句对应的目标行为素材的触发时间,包括:
将所述语句的所述时间信息中携带的所述语句中的关键词的开始时间,确定为对应的所述目标行为素材中关键帧的触发时间;
根据所述关键帧与所述目标行为素材的起始帧之间的帧数、和所述关键帧的触发时间,确定所述目标行为素材的触发时间。
4.根据权利要求2所述的方法,其中,所述根据所述目标行为素材的触发时间,将所述语句匹配的目标行为素材与所述预设文本中其他语句匹配的目标行为素材进行拼接处理,以获得与所述预设文本对应的虚拟角色的行为数据,包括:
按照所述语句匹配的目标行为素材的触发时间和持续时间,以及所述预设文本中其他语句匹配的目标行为素材的触发时间和持续时间,拼接出素材序列数据;
对所述素材序列数据进行填充处理和/或裁剪处理;
根据处理后的所述素材序列数据,获得所述预设文本对应的所述虚拟角色的行为数据。
5.根据权利要求4所述的方法,其中,所述对所述素材序列数据进行填充处理,包括:
针对所述素材序列数据中相邻两个所述目标行为素材之间间隔的空白时间段,从预设的行为素材中确定填充行为素材,并将所述填充行为素材填充在所述素材序列数据的所述空白时间段内,获得填充处理后的所述素材序列数据。
6.根据权利要求4或5所述的方法,其中,所述对所述素材序列数据进行裁剪处理,包括:
针对所述素材序列数据中相邻两个所述目标行为素材重叠的重叠时间段,对重叠的相邻两个所述目标行为素材中的至少之一进行裁剪处理。
7.根据权利要求1所述的方法,其中,在获得用于虚拟角色的预设文本中语句的意图信息之前,所述方法还包括:
根据文本样本,获得多个样本语句和所述样本语句对应的意图信息;
以所述意图信息和对应的样本语句作为训练样本,对用于识别所述预设文本中语句的意图信息的意图识别模型进行训练。
8.一种数据处理装置,包括:
意图信息获得模块,用于获得用于虚拟角色的预设文本中语句的意图信息,所述意图信息用于指示虚拟角色的行为目的;
匹配模块,用于根据所述语句的意图信息,从预设的虚拟角色的行为素材中,确定与所述语句匹配的目标行为素材;
行为数据生成模块,用于根据所述语句在所述预设文本中的顺序,将所述语句匹配的目标行为素材与所述预设文本中其他语句匹配的目标行为素材进行拼接处理,以获得与所述预设文本对应的虚拟角色的行为数据。
9.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的数据处理方法对应的操作。
10.一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-7中任一所述的数据处理方法。
CN202010814986.1A 2020-08-13 2020-08-13 数据处理方法、装置、电子设备及计算机存储介质 Pending CN114139525A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010814986.1A CN114139525A (zh) 2020-08-13 2020-08-13 数据处理方法、装置、电子设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010814986.1A CN114139525A (zh) 2020-08-13 2020-08-13 数据处理方法、装置、电子设备及计算机存储介质

Publications (1)

Publication Number Publication Date
CN114139525A true CN114139525A (zh) 2022-03-04

Family

ID=80438052

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010814986.1A Pending CN114139525A (zh) 2020-08-13 2020-08-13 数据处理方法、装置、电子设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN114139525A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114818609A (zh) * 2022-06-29 2022-07-29 阿里巴巴达摩院(杭州)科技有限公司 用于虚拟对象的交互方法、电子设备及计算机存储介质
CN116582726A (zh) * 2023-07-12 2023-08-11 北京红棉小冰科技有限公司 视频生成方法、装置、电子设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114818609A (zh) * 2022-06-29 2022-07-29 阿里巴巴达摩院(杭州)科技有限公司 用于虚拟对象的交互方法、电子设备及计算机存储介质
CN114818609B (zh) * 2022-06-29 2022-09-23 阿里巴巴达摩院(杭州)科技有限公司 用于虚拟对象的交互方法、电子设备及计算机存储介质
CN116582726A (zh) * 2023-07-12 2023-08-11 北京红棉小冰科技有限公司 视频生成方法、装置、电子设备及存储介质
CN116582726B (zh) * 2023-07-12 2023-12-01 北京红棉小冰科技有限公司 视频生成方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110968736B (zh) 视频生成方法、装置、电子设备及存储介质
US10860345B2 (en) System for user sentiment tracking
CN110602516A (zh) 基于视频直播的信息交互方法、装置及电子设备
CN110868635B (zh) 视频处理方法、装置、电子设备及存储介质
CN112579826A (zh) 视频显示及处理方法、装置、系统、设备、介质
CN111541938B (zh) 视频生成方法、装置及电子设备
CN107071554B (zh) 语义识别方法和装置
CN113569037A (zh) 一种消息处理方法、装置以及可读存储介质
CN112399258A (zh) 直播回放视频生成播放方法、装置、存储介质及电子设备
CN113536172B (zh) 一种百科信息展示的方法、装置及计算机存储介质
CN111586466B (zh) 一种视频数据处理方法、装置及存储介质
CN114139525A (zh) 数据处理方法、装置、电子设备及计算机存储介质
WO2021180155A1 (zh) 对图片、视频进行语音标记的方法及装置
CN111385642A (zh) 媒体信息的处理方法、装置、服务器、设备及存储介质
CN112230838A (zh) 一种文章处理方法、装置、设备及计算机可读存储介质
CN111862280A (zh) 虚拟角色控制方法、系统、介质及电子设备
CN112163560A (zh) 一种视频信息处理方法、装置、电子设备及存储介质
CN107180055A (zh) 业务对象的展示方法及装置
CN113378583A (zh) 对话回复方法及装置、对话模型训练方法及装置、存储介质
CN113886610A (zh) 信息展示方法、信息处理方法及装置
CN113643413A (zh) 动画处理方法、装置、介质及电子设备
CN111125384A (zh) 一种多媒体答案生成方法、装置、终端设备以及存储介质
CN115407985A (zh) 虚拟多媒体场景编辑方法、电子设备及存储介质
CN113542797A (zh) 视频播放中的互动方法、装置及计算机可读存储介质
CN111063037A (zh) 一种三维场景编辑方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination