CN113821690B - 数据处理方法、装置、电子设备和存储介质 - Google Patents

数据处理方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113821690B
CN113821690B CN202111389323.0A CN202111389323A CN113821690B CN 113821690 B CN113821690 B CN 113821690B CN 202111389323 A CN202111389323 A CN 202111389323A CN 113821690 B CN113821690 B CN 113821690B
Authority
CN
China
Prior art keywords
information
video
script
determining
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111389323.0A
Other languages
English (en)
Other versions
CN113821690A (zh
Inventor
陈大友
张迎亚
潘攀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Damo Institute Hangzhou Technology Co Ltd
Original Assignee
Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Damo Institute Hangzhou Technology Co Ltd filed Critical Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority to CN202111389323.0A priority Critical patent/CN113821690B/zh
Publication of CN113821690A publication Critical patent/CN113821690A/zh
Application granted granted Critical
Publication of CN113821690B publication Critical patent/CN113821690B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请实施例提供了一种数据处理方法、装置、电子设备和存储介质,所述的方法包括:获取目标对象的对象描述信息和类型信息;提取对象描述信息中的关键信息,并依据关键信息进行剧本生成处理,确定至少一个剧本信息,所述关键信息包括角色信息、动作信息、场景信息和事件信息,所述剧本生成处理包括对关键信息进行组合、转换、扩充;将剧本信息输入到多模态匹配模型中,得到与剧本信息匹配的视频数据;依据类型信息,确定对应的音频数据;依据音频数据和剧本信息对应的视频数据,确定目标对象的剧情视频;本申请实施例能够降低视频制作成本。

Description

数据处理方法、装置、电子设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种数据处理方法、一种数据处理装置、一种电子设备和一种存储介质。
背景技术
随着短视频平台的兴起,越来越多用户喜欢通过观看短视频来打发闲暇时间,越来越多用户也更倾向于通过视频来进行发现、获取信息。
为了便于用户了解目标对象,通常会为目标对象制作视频,用户可以通过观看视频来更直观的了解目标对象。例如,可以为书籍制作描述视频,为商品制作商品描述视频,以便用户观看视频来了解目标对象。
但是,现有的视频制作通常是人工拍摄、剪辑形成的,制作成本高。
发明内容
本申请实施例提供了一种数据处理方法,以降低视频的制作成本。
相应的,本申请实施例还提供了一种数据处理装置、一种电子设备和一种存储介质,用以保证上述系统的实现及应用。
为了解决上述问题,本申请实施例公开了一种数据处理方法,所述的方法包括:获取目标对象的对象描述信息和类型信息;提取对象描述信息中的关键信息,并依据关键信息进行剧本生成处理,确定至少一个剧本信息,所述关键信息包括角色信息、动作信息、场景信息和事件信息,所述剧本生成处理包括对关键信息进行组合、转换、扩充;将剧本信息输入到多模态匹配模型中,得到与剧本信息匹配的视频数据;依据类型信息,确定对应的音频数据;依据音频数据和剧本信息对应的视频数据,确定目标对象的剧情视频。
为了解决上述问题,本申请实施例公开了一种数据处理方法,所述的方法包括:获取目标书籍的书籍描述信息和书籍类型信息;提取书籍描述信息中的关键信息,并依据关键信息进行剧本生成处理,确定剧本信息,所述关键信息包括角色信息、动作信息、场景信息和事件信息,所述剧本生成处理包括对关键信息进行组合、转换、扩充;将剧本信息输入到多模态匹配模型中,得到与剧本信息匹配的视频数据;依据书籍类型信息,确定对应的音频数据;依据视频数据和音频数据,确定目标书籍的剧情视频。
为了解决上述问题,本申请实施例公开了一种数据处理方法,所述的方法包括:获取直播音频数据,并对直播音频数据进行语音识别,确定目标对象的对象描述信息和类型信息;提取对象描述信息中的关键信息,并依据关键信息进行剧本生成处理,确定至少一个剧本信息,所述关键信息包括角色信息、动作信息、场景信息和事件信息,所述剧本生成处理包括对关键信息进行组合、转换、扩充;将剧本信息输入到多模态匹配模型中,得到与剧本信息匹配的视频数据;依据类型信息,确定对应的音频数据;依据音频数据和剧本信息对应的视频数据,确定目标对象的剧情视频。
为了解决上述问题,本申请实施例公开了一种电子设备,包括:处理器;和存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如上述实施例中任一项所述的方法。
为了解决上述问题,本申请实施例公开了一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如上述实施例中任一项所述的方法。
与现有技术相比,本申请实施例包括以下优点:
本申请实施例可以获取目标对象的对象描述信息和类型信息,并提取对象描述信息中的角色信息、动作信息、场景信息和时间信息等关键信息,以进行组合、转换、扩充等处理,形成剧本信息,之后,可以将剧本信息输入到多模态匹配模型中,得到与剧本信息匹配的视频数据;本申请实施例还可以依据目标对象的类型信息,确定对应的音频数据;之后,本申请实施例可以依据音频数据和剧本信息对应的视频数据,确定目标对象的剧情视频。本申请实施例可以根据输入的对象描述信息和类型信息,匹配相对应的视频数据和音频数据,从而形成剧情视频,相比于通过人工进行拍摄和剪辑进行视频制作的方式,本申请实施例的方式能够根据目标对象相关的对象描述信息和类型信息来生成视频,能够降低视频制作成本。
附图说明
图1A是本申请一个实施例的数据处理方法的流程示意图;
图1B是本申请一个实施例的剧本调整页面的示意图;
图1C是本申请一个实施例的文本配置页面的示意图;
图1D是本申请一个实施例的文案调整页面的示意图;
图1E是本申请一个实施例的视频调整页面的示意图;
图1F是本申请一个实施例的音频调整页面的示意图;
图1G是本申请一个实施例的视频展示页面的示意图;
图2是本申请另一个实施例的数据处理方法的流程示意图;
图3是本申请再一个实施例的数据处理方法的流程示意图;
图4A是本申请再一个实施例的数据处理方法的流程示意图;
图4B是本申请再一个实施例的数据处理方法的流程示意图;
图5是本申请一个实施例的数据处理装置的结构示意图;
图6是本申请另一个实施例的数据处理装置的结构示意图;
图7是本申请一个实施例提供的示例性装置的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
本申请实施例可应用于视频制作领域,视频是由多帧的连续图像组成的,并且,视频中除了可以包含有图像序列之外,还可以搭配文字和/或音频等,以更好的展示。
本申请实施例中,如图1A所示,可以获取目标对象的对象描述信息,根据对象描述信息确定匹配相应的视频数据,并依据文视频数据,形成剧情视频。本申请实施例还可以向剧情视频中添加音频数据,如添加配乐、独白、对话等音频,以使剧情视频更加丰富;并且,还可以获取目标对象的类型信息,并确定对应的音频数据,以在剧情视频中添加音频数据,使得剧情视频包含的内容更加丰富,以便于通过剧情视频对目标对象进行了解。另外,需要说明的是,本申请实施例除了可以应用在视频制作场景之外,还可以应用在其他多媒体数据的制作场景中,例如,本申请实施例可以根据视频数据、文案和音频数据进行动画的制作。
具体来说,本申请实施例可以提供交互页面,交互页面包含有描述信息输入接口和类型信息输入接口,用户可以在交互页面中进行操作,以通过描述信息输入接口输入目标对象的对象描述信息,通过类型信息输入接口输入目标对象的类型信息。本申请实施例可以应用在为书籍制作视频的场景中,在该场景中,对象描述信息可以理解为书籍的简介信息,类型信息可以理解为书籍的类型(如武侠、科幻、传记等);本申请实施例也可以应用在为产品制作视频的场景中,在该场景中,对象描述信息可以理解为产品(如商品)的说明书信息(或简介),类型信息可以理解为产品类型(如商品可以划分为衣物类、日用品类、装饰类等)。
获取到对象描述信息之后,可以提取对象描述信息中的关键信息,并确定剧本信息,本申请实施例可以提取目标对象的角色信息、动作信息、场景信息和事件信息等关键信息,并进行组合、转换、扩充等处理,形成剧本信息。
另外,本申请实施例还可以通过人工调整的方式,对剧本进行调整,具体的,如图1B所示,可以提供剧本调整页面,剧本调整页面中包含有剧本调整控件,在剧本调整页面中可以展示对象描述信息中的关键信息和剧本信息,用户可以对剧本调整控件进行触发,来对关键信息和剧本信息进行调整,从而形成剧本调整信息,以依据剧本调整信息,确定调整后的剧本信息。
确定剧本信息之后,可以依据剧本信息,确定对象描述文案和匹配的视频数据,具体的,一方面,可以对剧本信息进行语义转换,形成对象描述文案;另一方面,还可以将剧本信息输入到多模态匹配模型中,以通过文字类型的剧本信息,跨模态匹配到视频类型的视频数据。具体的,多模态匹配模型包括文本特征库和视觉特征库,文本特征库包含有文本的文本特征,视觉特征库包含有视频的视觉特征;文本特征库与视觉特征库之间存在对应关系,该对应关系通过对多模态匹配模型的训练确定。多模态匹配模型可以包括文本特征提取层、文本特征匹配层、特征映射层等,其中文本特征提取层用于提取剧本信息的的第一文本特征,文本特征匹配层用于确定文本特征库中与第一文本特征相似的第二文本特征,特征映射层用于依据文本特征库和实际特征库之间的对应关系,确定视觉特征库中与第二文本特征对应的视觉特征,以便获取视觉特征对应的视频数据。
其中,本申请实施例可以通过训练数据和训练数据对应的标注结果对多模态匹配模型进行训练。训练数据包括训练文本数据和训练视频数据,标注结果包括训练文本数据和训练视频数据之间的对应关系。本申请实施例可以将训练文本数据输入到多模态匹配模型中,确定训练文本数据匹配的训练视频数据,形成匹配结果;并依据匹配结果和标注结果,对多模态匹配模型进行训练。其中,本申请实施例可以通过文本特征提取层来提取训练文本数据的文本特征,并存入文本特征库中;本申请实施例还可以提取训练视频数据的视觉特征,并存储视觉特征库中;从而通过多模态匹配模型的特征匹配层,确定文本特征库中的文本特征与视觉特征库中的视觉特征之间的匹配结果,以通过标注结果和匹配结果之间的差异,对多模态匹配模型的进行调整,以完成多模态匹配模型的训练。需要说明的是,多模态匹配模型的训练过程与应用过程可以分别执行。
本申请实施例可以通过对原始视频素材(或称训练输入视频)进行切分来获取训练视频数据,并存入视频素材库(或称图像素材库)中,之后可以进行视觉特征的提取,从而形成视觉特征库。相应的,本申请实施例可以通过人工配置的方式,为切分后的训练视频数据配置对应的训练文本数据,例如,如图1C所示,可以提供文本配置页面,以在文本配置页面中展示训练视频数据,并基于用户对文本配置页面中文本配置控件的触发,获取训练文本数据,从而依据训练视频数据和训练文本数据形成训练数据,并建立训练数据和训练视频数据之间的对应关系,形成训练数据对应的标注结果。
本申请实施例还可以根据目标对象的类型信息,确定对应的音频数据,并依据音频数据和视频数据,形成剧情视频,并且,本申请实施例还可以依据剧情信息确定对应的对象描述文案,并将对象描述文案添加到剧情视频中,提升剧情视频的丰富度,以便于通过剧情视频对目标对象进行了解。
为了使剧情视频与目标对象的匹配度更高,本申请实施例还可以通过人工调整的方式,对对象描述文案、视频数据、音频数据或剧情视频进行调整,以便得到更加符合目标对象的对象描述文案、视频数据和音频数据。具体的,在一个可选的实施例中,如图1D所示,对于对象描述文案,本申请实施例可以提供文案调整页面,文案调整页面可以包含有文案调整控件,在文案调整页面可以展示对象描述文案和剧本信息,以便用户对对象描述文案进行调整。在另一个可选的实施例中,如图1E所示,对于视频数据,本申请实施例可以提供视频调整页面,视频调整页面中可以包含有视频选择控件和/或视频上传控件,在视频调整页面中可以展示多个与剧本信息相关的视频数据,用户可以对视频选择控件进行触发,来选中与目标对象匹配的视频数据;用户也可以对视频上传控件进行触发,以上传目标对象匹配的视频数据。
在再一个可选的实施例中,如图1F所示,对于音频数据,本申请实施例可以提供音频调整页面,音频调整页面中可以包含有音频选择控件和/或音频上传控件,在音频调整页面中可以展示多个与类型信息相关的音频数据,用户可以对音频选择控件进程触发,来选中与目标对象匹配的音频数据;用户也可以对音频上传控件进行触发,以上传目标对象对应的音频数据。在再一个可选的实施例中,如图1G所示,对于剧情视频,本申请实施例可以视频展示页面,视频展示页面可以包含有视频调整控件,用户可以对视频调整控件进行触发,以对文案、视频数据或音频数据中的至少一个进行调整,从而得到调整后的剧情视频。
确定对象描述文案、音频数据和视频数据之后,可以按照预设组合方案将对象描述文案、音频数据和视频数据进行组合,形成剧情视频。其中,本申请实施例中可以预先设置多套组合方案,以形成不同的剧情视频,另外,本申请实施例还可以发送多个组合方案给终端设备的用户,以便于用户对组合方案进行选择或设计,以便于形成更加符合用户需求的剧情视频。
本申请实施例可以应用在视频制作的场景中,可以根据目标对象的对象描述信息,生成目标对象的剧情视频,以更好的对目标对象进行展示。本申请实施例可以应用在各类基于目标对象的对象描述信息进行视频制作的场景中,例如,本申请实施例可以应用在基于书籍、公告等对象的简介信息进行视频制作的场景中,书籍、公告等还可以按照所属领域进行进一步细分,如数据可以细分为小说类书籍、教育类书籍、医疗类书籍等,公告可以划分为校园相关公告、交通相关公告、天气相关公告等;再例如,本申请实施例还可以应用在基于产品的说明信息进行视频制作的场景中,产品还可以按照所属的领域进一步细分,例如,产品可以划分为教育相关产品、医疗相关产品、商品等。
举例来说,本申请实施例可以应用在基于书籍的简介进行视频制作场景中,本申请实施例可以获取书籍的简介信息和书籍的类型信息(如武侠、教育、医疗等信息),根据书籍的简介信息可以提取出角色信息、场景信息、动作信息等关键信息(如角色名称、舞剑、江湖等信息),并形成剧本信息(如一个古装美女在舞剑)。之后,可以依据剧本信息确定对象描述文案(如长剑飞舞,惊艳众人),还可以依据剧本信息匹配到相应的视频数据(如女性舞剑视频);根据书籍的类型信息可以获取相应的音频数据;之后,可以依据对象描述文案、音频数据和视频数据进行融合,形成剧情视频(或动画),从而更好的对书籍进行展示。
再举例来说,本申请实施例还可以应用在基于商品的说明书(或简介)进行视频制作的场景中,本申请实施例可以获取商品的说明书(或简介信息)以及商品的类型,之后,可以根据说明书,提取关键信息(如商品名、商品规格、商品功能等),进而确定对应的对象描述文案和视频数据;可以依据商品的类型,确定相应的音频数据;之后,可以依据对象描述文案、音频数据和视频数据进行融合,形成剧情视频(或动画),从而更好的对商品进行展示。
本申请实施例提供一种数据处理方法,可以应用在服务端,服务端可以根据目标对象的对象描述信息,制作目标对象的剧情视频,能够减少视频制作成本,具体的,如图2所示,所述方法包括:
步骤202、获取目标对象的对象描述信息和类型信息。对象描述信息包含有目标对象的相关信息,例如,对象描述信息可以包含有目标对象相关的角色信息、动作信息、场景信息和事件信息等,如在目标对象为书籍的场景下,对象描述信息可以为包含有角色名、角色动作、场景和事件等信息的书籍简介。目标对象的类型信息可以理解为目标对象所属的类别,例如,以目标对象为书籍为例,相应的类型信息可以为小说类、教育类、医疗类等。
步骤204、提取对象描述信息中的关键信息,并依据关键信息进行剧本生成处理,确定至少一个剧本信息,所述关键信息包括角色信息、动作信息、场景信息和事件信息,所述剧本生成处理包括对关键信息进行组合、转换、扩充。
本申请实施例可以通过命名实体识别的方式来提取出关键信息,命名实体识别(Named Entity Recognition,NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。确定关键信息之后,可以对关键信息进行组合、转换、扩充等处理,形成剧本信息。例如,本申请实施例可以对书籍的简介进行关键信息提取,得到女性、剑客、古代、江湖等关键信息,从而进行组合、转换和扩充,形成剧本信息“一个古装美女在舞剑”。
本申请实施例还可以通过人工调整的方式对剧本信息进行调整,具体的,作为一个可选的实施例,所述方法还包括:提供剧本调整页面,以在剧本调整页面中展示关键信息和剧本信息;依据在剧本调整页面中对剧本调整控件的触发,获取剧本调整信息;依据剧本调整信息,确定调整后的剧本信息。服务端可以向用户的终端设备提供剧本调整页面,用户可以对剧本调整页面中展示的关键信息和剧本信息中的任一个进行调整,其中,在用户对关键信息调整时,可以上传调整后的关键信息给服务端,服务端依据调整后的关键信息对剧本信息进行调整,并反馈给终端,从而形成调整后的剧本信息,使得调整后的剧本信息与目标对象的匹配度更高。
确定剧本信息之后,服务端可以在步骤206中,将剧本信息输入到多模态匹配模型中,得到与剧本信息匹配的视频数据。多模态匹配模型包括文本特征提取层、文本特征匹配层、特征映射层等,以通过剧本信息匹配到相应的视频数据,具体的,作为一个可选的实施例,所述将剧本信息输入到多模态匹配模型中,得到与剧本信息匹配的视频数据,包括:通过文本特征提取层对剧本信息进行特征提取,确定第一文本特征;通过文本特征匹配层依据第一文本特征进行相似分析,确定文本特征库中对应的第二文本特征;通过特征映射层依据文本特征库与视觉特征库之间的对应关系,确定视觉特征库中与第二文本特征对应的目标视觉特征,并获取相应的视频数据。
多模态匹配模型包括文本特征库和视觉特征库,文本特征库包含有对应文本的文本特征,视觉特征库包含有对应视频数据的视觉特征;文本特征库与视觉特征库之间存在对应关系,该对应关系通过对多模态匹配模型的训练确定。本申请实施例可以将剧本信息输入到多模态匹配模型中,多模态匹配模型可以通过文本特征提取层确定剧本信息的第一文本特征,并通过文本特征匹配层分析文本特征库中与第一文本特征相似度最高的第二文本特征,进而通过特征映射层依据文本特征库与视觉特征库之间的对应关系,确定视觉特征库中与第二文本特征对应的视觉特征,并获取视觉特征对应的视频数据,作为与剧本信息匹配的视频数据。其中,剧本信息的第一文本特征可以包含有剧本信息中每个字符的特征和字符上下文的特征;视频数据的视觉特征可以包含有视频数据中各像素点的特征和视频数据之前或之后的相关视频数据的视频特征。
本申请实施例可以通过训练数据来对多模态匹配模型进行训练,具体的,作为一个可选的实施例,所述方法还包括多模态匹配模型的训练步骤:获取训练数据和对应的标注结果,所述训练数据包括训练文本数据和训练视频数据,所述标注结果包括训练文本数据和训练视频数据之间的对应关系;将训练文本数据输入到多模态匹配模型中,确定训练文本数据匹配的训练视频数据,形成匹配结果;依据匹配结果和标注结果,对多模态匹配模型进行调整。匹配结果中可以包含通过多模态匹配模型确定的与文本特征匹配的第一视觉特征,标注结果中包含该文本特征对应的第二视觉特征;之后,可以基于第一视觉特征和第二视觉特征之间的差异,对多模态匹配模型进行调整,以对多模态匹配模型进行训练。
本申请实施例可以通过对视频素材进行切分,来获取视频数据,并通过人工输入文本的方式来为视频数据搭配对应的文本数据,从而形成训练数据和标注结果,具体的,作为一个可选的实施例,所述获取训练数据和对应的标注结果,包括:获取训练输入视频,并进行切分,得到训练视频数据;提供文本配置页面,以展示训练视频数据;基于对文本配置页面中文本配置控件的触发,获取训练文本数据;依据训练文本数据和训练视频数据,确定训练数据;建立训练数据和训练视频数据之间的对应关系,形成训练数据对应的标注结果。本申请实施例可以对大量的训练视频进行切分,得到训练视频数据,之后,可以对训练视频数据按照相似度进行分组,得到多组训练视频数据,并在文本配置页面中进行展示。用户可以对文本配置页面中的文本配置控件进行触发,来输入与训练视频数据对应的训练文本数据,从而形成训练数据和标注结果,以对多模态匹配模型进行训练。
确定了剧本信息对应的对象描述文案之后,本申请实施例还可以将对象描述文案展示给用户,以便用户对对象描述文案进行调整,具体的,作为一个可选的实施例,所述方法还包括:提供文案调整页面,以在文案处理页面展示对象描述文案;基于在文案调整页面中对文案调整控件的触发,获取文案调整信息;依据文案调整信息,对对象描述文案进行调整。服务端可以向终端设备提供文案调整页面,以便终端设备的用户对文案调整页面中的文案调整控件进行操作,从而对对象描述文案进行调整。
本申请实施例还可以展示多个与剧本信息相关的视频数据给用户,以便用户进行选择,从而确定剧本信息相关的视频数据,具体的,作为一个可选的实施例,确定视频数据的步骤,包括:提供视频调整页面,以在视频调整页面中展示多个与剧本信息相关的视频数据;基于在视频调整页面中对视频选择控件的触发,获取视频选择信息;依据视频选择信息,确定剧本信息匹配的视频数据。服务端可以向终端设备提供视频调整页面,以便终端设备的用户对视频调整页面中的视频选择控件进行触发,从而选择与剧本信息匹配的视频数据。
用户还可以通过上传的方式,上传与剧本信息匹配的视频数据,具体的,作为一个可选的实施例,所述方法还包括:基于对视频调整页面中视频上传控件的触发,获取上传的视频数据;将上传的视频数据作为剧本信息匹配的视频数据。终端设备的用户可以触发视频上传控件,以向服务端上传视频数据,以便服务端确定剧本信息匹配的视频数据。
服务端还可以在步骤208中,依据类型信息,确定对应的音频数据;并在步骤210中,依据音频数据和剧本信息对应的视频数据,确定目标对象的剧情视频。本申请实施例中,可以在服务端预先设置对应目标对象不同类型的音频数据,以便按照目标对象的类型信息,确定对应的音频数据,例如,对于目标对象为书籍来说,书籍的类型可以为小说类、教学类、医疗类等,用户可以为不同类型的书籍预先配置相对应的音频数据,从而在视频制作过程中,根据书籍的类型,筛选出相对应的音频数据,并添加到视频数据中,形成剧情视频。
用户还可以通过上传的方式,上传视频的音频数据,具体的,作为一个可选的实施例,所述方法还包括:基于对音频调整页面中音频上传控件的触发,获取上传的音频数据;将上传的音频数据作为目标对象的类型信息对应的音频数据。终端设备的用户可以触发阴坡上传控件,以向服务端上传音频数据,以便服务端向剧情视频中添加对应的音频数据。
本申请实施例除了可以在剧情视频中融入视频数据和音频数据之外,还可以向剧情视频中添加文案,使得剧情视频包含的内容更加丰富,便于展示目标对象,具体的,作为一个可选的实施例,所述方法还包括:对剧本信息进行语义转换,形成对象描述文案,并将对象描述文案添加到剧情视频中。本申请实施例可以预先设置文案库,并根据剧本信息进行语义识别,得到语义信息,并按照语义信息,从文案库中搜索对应的对象描述文案,并添加到剧情视频中。
本申请实施例在确定了剧情视频之后,可以将剧情视频展示给用户,以便用户对剧情视频进行调整,具体的,作为一个可选的实施例,所述方法还包括:提供视频展示页面,以在视频展示页面中展示剧情视频;基于对视频展示页面中视频调整控件的触发,获取视频调整信息,所述视频调整信息包括文案调整信息和视频调整信息中的至少一个;基于视频调整信息,确定调整后的剧情视频。用户可以在视频展示页面中剧情视频中的对象描述文案、视频数据和音频数据中的至少一个进行调整,从而确定调整后的剧情视频。
本申请实施例可以依据对象描述信息生成多个剧情视频,并在视频展示页面中进行展示,具体的,作为一个可选的实施例中,所述方法还包括:在视频展示页面中展示多个剧情视频;基于对视频展示页面中剧情视频选择控件的触发,获取剧情视频选择信息;依据剧情视频选择信息,确定目标对象的剧情视频。
本申请实施例中,可以通过对象描述信息确定至少一个剧本信息,在确定一个剧本信息时,本申请实施例可以将音频数据和视频数据进行融合,形成剧情视频。在确定至少两个剧本信息时,每个剧本信息可以分别确定对应的视频数据,进而得到至少两个视频数据,因此,本申请实施例可以将至少两个视频数据进行拼接,以形成剧情视频,具体的,作为一个可选的实施例,所述依据音频数据和剧本信息对应的视频数据,确定目标对象的剧情视频,包括:获取至少两个剧本信息对应的视频数据,并进行拼接,得到拼接视频;获取拼接视频中各视频对象的身份相关信息;将视频对象的身份相关信息转换为目标对象的目标身份信息,并向拼接视频中融入音频数据,形成剧情视频。本申请实施例在将多个视频数据拼接之后,可以识别各个视频数据中视频对象的身份相关信息,身份相关信息是指与视频对象的身份相关的信息,如在视频对象为人物时,身份相关信息可以包括视频对象的面部图像、穿着的衣物等信息;本申请实施例可以将视频对象的身份相关信息,替换为目标对象的目标身份信息,从而使得多个与不同剧本信息对应的视频数据中的视频对象统一,使得融合得到的视频数据更加完整。
在上述实施例的基础上,本申请实施例还提供一种数据处理方法,可以应用在服务端,如图3所示,所述方法包括:
步骤302、获取目标对象的对象描述信息和类型信息。
步骤304、提取目标对象的对象描述信息中的关键信息,所述关键信息包括角色信息、动作信息、场景信息和事件信息。
步骤306、对关键信息进行剧本生成处理,确定至少一个剧本信息,所述剧本生成处理包括对关键信息进行组合、转换、扩充。本申请实施例还可以展示剧本信息给用户,以便用户进行调整,作为一个可选的实施例,所述方法还包括:提供剧本调整页面,以在剧本调整页面中展示关键信息和剧本信息;依据在剧本调整页面中对剧本调整控件的触发,获取剧本调整信息;依据剧本调整信息,确定调整后的剧本信息。
步骤308、对剧本信息进行语义转换,形成对象描述文案。本申请实施例可以展示对象描述文案给用户,以便用户进行调整,作为一个可选的实施例,所述方法还包括:提供文案调整页面,以在文案处理页面展示对象描述文案;基于在文案调整页面中对文案调整控件的触发,获取文案调整信息;依据文案调整信息,对对象描述文案进行调整。
步骤310、通过多模态匹配模型的文本特征提取层对剧本信息进行特征提取,确定第一文本特征。
步骤312、通过多模态匹配模型的文本特征匹配层依据第一文本特征进行相似分析,确定文本特征库中对应的第二文本特征。
步骤314、通过多模态匹配模型的特征映射层依据文本特征库与视觉特征库之间的对应关系,确定视觉特征库中与第二文本特征对应的目标视觉特征,并获取相应的视频数据。本申请实施例可以向用户展示多个视频数据,以便用户对视频数据进行选择或上传剧本信息对应的视频数据,作为一个可选的实施例,确定视频数据的步骤,包括:提供视频调整页面,以在视频调整页面中展示多个与剧本信息相关的视频数据;基于在视频调整页面中对视频选择控件的触发,获取视频选择信息;依据视频选择信息,确定剧本信息匹配的视频数据。作为另一个可选的实施例,所述方法还包括:基于对视频调整页面中视频上传控件的触发,获取上传的视频数据;将上传的视频数据作为剧本信息匹配的视频数据。
步骤316、依据目标对象的类型信息,确定对应的音频数据。本申请实施例可以向用户展示多个音频数据,以便用户对音频数据进行选择,作为一个可选的实施例,所述确定对应的音频数据,包括:提供音频调整页面,以在音频调整页面中展示多个与类型信息相关的音频数据;基于在音频调整页面中对音频选择控件的触发,获取音频选择信息;依据音频选择信息,确定目标对象的类型信息对应的音频数据。作为一个可选的实施例,所述方法还包括:基于对音频调整页面中音频上传控件的触发,获取上传的音频数据;将上传的音频数据作为目标对象的类型信息对应的音频数据。
步骤318、依据对象描述文案、视频数据和音频数据,确定目标对象的剧情视频。
步骤320、提供视频展示页面,以在视频展示页面中展示剧情视频;
步骤322、基于对视频展示页面中视频调整控件的触发,获取视频调整信息,所述视频调整信息包括文案调整信息、音频调整信息和视频调整信息中的至少一个。
步骤324、基于视频调整信息,确定调整后的剧情视频。
本申请实施例可以获取目标对象的对象描述信息和类型信息,对于对象描述信息,可以提取对象描述信息中的关键信息,并进行组合、转换、扩充等处理,形成剧本信息。之后,可以对剧本信息进行语义转换,形成对象描述文案。还可以对剧本信息进行特征提取,确定第一文本特征,并依据第一文本特征进行相似分析,确定文本特征库中对应的第二文本特征,进而依据文本特征库与视觉热证库之间的对应关系,确定视觉特征库中与第二文本特征对应的视频数据。对于类型信息,可以确定相应的音频数据。确定对象描述文案、视频数据和音频数据之后,可以进行融合,形成剧情视频,并在视频展示页面中进行展示。用户可以在视频展示页面中对视频调整控件进行触发,以对剧情视频进行调整,得到与目标对象更加匹配的剧情视频,以便于通过剧情视频对目标对象进行了解。
在上述实施例的基础上,本申请实施例还提供一种数据处理方法,可以应用在服务端,服务端可以依据用户上传的对象描述信息和类型信息,生成剧情视频,以更好的展示目标对象,具体的,所述方法包括:
提供交互页面,以获取目标对象的对象描述信息和类型信息。
提取对象描述信息中的关键信息,形成剧本信息,并确定对象描述文案和匹配的视频数据。
依据类型信息,确定对应的音频数据。
依据对象描述文案、视频数据和音频数据,确定目标对象的剧情视频。
下发剧情视频,以在展示页面中进行展示。
本实施例的实施方式与上述实施例的实施方式类似,具体实施方式可以参考上述实施例的具体实施方式,此处不再赘述。
本申请实施例可以根据目标对象的对象描述信息和类型信息,生成目标对象的剧情视频,以便通过剧情视频对目标对象进行了解。具体的,本申请实施例中服务端可以向第一终端设备提供交互页面,用户可以在交互页面中输入目标对象的对象描述信息和类型信息;对于对象描述信息,可以提取关键信息形成剧本信息,并依据剧本信息,确定对应的对象描述文案和匹配的视频数据;对于类型信息,可以确定对应的音频数据;之后,可以依据对象描述文案、视频数据和音频数据,确定目标对象的剧情视频,并将剧情视频下发给第二终端设备,以便在展示页面中进行展示,展示页面可以理解为用于展示目标对象的相关信息的页面,例如,在宣传目标对象的场景中,可以在展示页面中展示剧情视频,以便通过剧情视频进行目标对象的宣传。
在上述实施例的基础上,本申请实施例还提供一种数据处理方法,可以应用在服务端,服务端可以依据书籍的书籍描述信息和书籍描述信息,确定对应的视频数据和音频数据,并融合为剧情视频,以便于通过剧情视频对书籍进行了解,具体的,所述方法包括:
获取目标书籍的书籍描述信息和书籍类型信息。
提取书籍描述信息中的关键信息,并依据关键信息进行剧本生成处理,确定剧本信息,所述关键信息包括角色信息、动作信息、场景信息和事件信息,所述剧本生成处理包括对关键信息进行组合、转换、扩充。
将剧本信息输入到多模态匹配模型中,得到与剧本信息匹配的视频数据。
依据书籍类型信息,确定对应的音频数据。
依据视频数据和音频数据,确定目标书籍的剧情视频。
本申请实施例可以提供交互页面,以便于用户通过交互页面输入书籍描述信息和书籍类型信息,作为一个可选的实施例,所述获取目标书籍的书籍描述信息和书籍类型信息,包括:提供交互页面,所述交互页面包含有描述信息输入接口和类型信息输入接口;通过描述信息输入接口,获取书籍描述信息;通过类型信息输入接口,获取书籍类型信息。
本实施例的实施方式与上述实施例的实施方式类似,具体实施方式可以参考上述实施例的具体实施方式,此处不再赘述。
本申请实施例可以提供交互页面,交互页面中包含有描述信息输入接口和类型信息输入接口,用户可以通过描述信息输入接口输入书籍描述信息,通过类型信息输入接口输入书籍类型信息,服务端接收到书籍描述信息和书籍类型信息之后,可以提取书籍描述信息中的关键信息,并依据关键信息进行剧本生成处理,形成剧本信息。之后,可以将剧本信息输入到多模态匹配模型中,得到与剧本信息匹配的视频数据。本申请实施例还可以依据书籍类型信息,确定对应的音频数据。之后,可以依据视频数据和音频数据,确定目标数据的剧情视频,以便于通过剧情视频来了解目标书籍。
在上述实施例的基础上,本申请实施例还提供一种数据处理方法,可以应用在服务端,服务端可以从介绍目标对象的直播音频中解析出目标对象的对象描述信息和类型信息,进而通过对象描述信息和类型信息,确定相对应的视频数据和音频数据,形成剧情视频,以便于对直播介绍的目标对象进行了解,具体的,所述方法包括:
获取直播音频数据,并对直播音频数据进行语音识别,确定目标对象的对象描述信息和类型信息。
提取对象描述信息中的关键信息,并依据关键信息进行剧本生成处理,确定至少一个剧本信息,所述关键信息包括角色信息、动作信息、场景信息和事件信息,所述剧本生成处理包括对关键信息进行组合、转换、扩充。
将剧本信息输入到多模态匹配模型中,得到与剧本信息匹配的视频数据。
依据类型信息,确定对应的音频数据。
依据音频数据和剧本信息对应的视频数据,确定目标对象的剧情视频。
本实施例的实施方式与上述实施例的实施方式类似,具体实施方式可以参考上述实施例的具体实施方式,此处不再赘述。
本申请实施例可以获取介绍目标对象的直播音频数据(可以从直播视频中分离出直播音频),并对直播音频数据进行语音识别,确定目标对象的对象描述信息和类型信息;之后,可以提取对象描述信息中的关键信息,并进行组合、扩充、转换等处理,形成至少一个剧本信息,以输入到多模态匹配模型中,确定与剧本信息匹配的视频数据;本申请实施例还可以依据目标对象的类型信息,确定对应的音频数据,进而依据音频数据和剧本信息对应的视频数据,确定目标对象的剧情视频,以便于通过剧情视频对目标对象进行宣传。
在上述实施例的基础上,本申请实施例还提供一种数据处理方法,可以应用在服务端,服务端可以向终端设备提供交互页面,以基于交互页面获取目标对象的对象描述信息和类型信息,进而确定目标对象的剧情视频,并返回给终端设备,以在终端设备进行展示,具体的,如图4A所示,所述方法包括:
步骤402、提供交互页面给终端设备,并基于交互页面获取目标对象的对象描述信息和类型信息。
步骤404、提取对象描述信息中的关键信息,并依据关键信息进行剧本生成处理,确定至少一个剧本信息,所述关键信息包括角色信息、动作信息、场景信息和事件信息,所述剧本生成处理包括对关键信息进行组合、转换、扩充。
步骤406、将剧本信息输入到多模态匹配模型中,得到与剧本信息匹配的视频数据。
步骤408、依据类型信息,确定对应的音频数据。
步骤410、依据音频数据和剧本信息对应的视频数据,确定目标对象的剧情视频,并输出剧情视频给终端设备,以在交互页面中进行展示。
本实施例的实施方式与上述实施例的实施方式类似,具体实施方式可以参考上述实施例的具体实施方式,此处不再赘述。
如图4B所示,本申请实施例可以应用在服务端,服务端可以与终端设备进行交互,以向终端设备提供交互页面,终端设备的用户可以在交互页面中输入对象描述信息和类型信息,以上传给服务端。服务端接收到对象描述信息和类型信息之后,可以提取对象描述信息中的关键信息,并进行组合、扩充、转换等处理,形成至少一个剧本信息,以输入到多模态匹配模型中,确定与剧本信息匹配的视频数据;服务端还可以依据目标对象的类型信息,确定对应的音频数据,进而依据音频数据和剧本信息对应的视频数据,确定目标对象的剧情视频,并输出剧情视频给终端设备,以便在终端设备展示剧情视频。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
在上述实施例的基础上,本实施例还提供了一种数据处理装置,参照图5,具体可以包括如下模块:
描述信息获取模块502,用于获取目标对象的对象描述信息和类型信息。
剧本信息获取模块504,用于提取对象描述信息中的关键信息,并依据关键信息进行剧本生成处理,确定至少一个剧本信息,所述关键信息包括角色信息、动作信息、场景信息和事件信息,所述剧本生成处理包括对关键信息进行组合、转换、扩充。
视频数据获取模块506,用于将剧本信息输入到多模态匹配模型中,得到与剧本信息匹配的视频数据。
音频数据获取模块508,用于依据类型信息,确定对应的音频数据。
剧情视频获取模块510,用于依据音频数据和剧本信息对应的视频数据,确定目标对象的剧情视频。
综上,本申请实施例可以获取目标对象的对象描述信息和类型信息,并提取对象描述信息中的角色信息、动作信息、场景信息和时间信息等关键信息,以进行组合、转换、扩充等处理,形成剧本信息,之后,可以将剧本信息输入到多模态匹配模型中,得到与剧本信息匹配的视频数据;本申请实施例还可以依据目标对象的类型信息,确定对应的音频数据;之后,本申请实施例可以依据音频数据和剧本信息对应的视频数据,确定目标对象的剧情视频。本申请实施例可以根据输入的对象描述信息和类型信息,匹配相对应的视频数据和音频数据,从而形成剧情视频,相比于通过人工进行拍摄和剪辑进行视频制作的方式,本申请实施例的方式能够根据目标对象相关的对象描述信息和类型信息来生成视频,能够降低视频制作成本。
在上述实施例的基础上,本实施例还提供了一种数据处理装置,具体可以包括如下模块:
描述信息获取处理模块,用于获取目标对象的对象描述信息和类型信息。
关键信息提取处理模块,用于提取目标对象的对象描述信息中的关键信息,所述关键信息包括角色信息、动作信息、场景信息和事件信息。
剧本信息获取处理模块,用于对关键信息进行剧本生成处理,确定至少一个剧本信息,所述剧本生成处理包括对关键信息进行组合、转换、扩充。
描述文案获取处理模块,用于对剧本信息进行语义转换,形成对象描述文案。
文本特征获取处理模块,用于通过多模态匹配模型的文本特征提取层对剧本信息进行特征提取,确定第一文本特征。
文本特征匹配处理模块,用于通过多模态匹配模型的文本特征匹配层依据第一文本特征进行相似分析,确定文本特征库中对应的第二文本特征。
视频数据获取处理模块,用于通过多模态匹配模型的特征映射层依据文本特征库与视觉特征库之间的对应关系,确定视觉特征库中与第二文本特征对应的视频数据。
音频数据获取处理模块,用于依据目标对象的类型信息,确定对应的音频数据。
描述视频获取处理模块,用于依据对象描述文案、视频数据和音频数据,确定目标对象的剧情视频。
描述视频展示处理模块,用于提供视频展示页面,以在视频展示页面中展示剧情视频;
视频调整信息获取处理模块,用于基于对视频展示页面中视频调整控件的触发,获取视频调整信息,所述视频调整信息包括文案调整信息、音频调整信息和视频调整信息中的至少一个。
描述视频调整处理模块,用于基于视频调整信息,确定调整后的剧情视频。
本申请实施例可以获取目标对象的对象描述信息和类型信息,对于对象描述信息,可以提取对象描述信息中的关键信息,并进行组合、转换、扩充等处理,形成剧本信息。之后,可以对剧本信息进行语义转换,形成对象描述文案。还可以对剧本信息进行特征提取,确定第一文本特征,并依据第一文本特征进行相似分析,确定文本特征库中对应的第二文本特征,进而依据文本特征库与视觉热证库之间的对应关系,确定视觉特征库中与第二文本特征对应的视频数据。对于类型信息,可以确定相应的音频数据。确定对象描述文案、视频数据和音频数据之后,可以进行融合,形成剧情视频,并在视频展示页面中进行展示。用户可以在视频展示页面中对视频调整控件进行触发,以对剧情视频进行调整,得到与目标对象更加匹配的剧情视频,以便于通过剧情视频对目标对象进行了解。
在上述实施例的基础上,本实施例还提供了一种数据处理装置,具体可以包括如下模块:
对象信息获取模块,用于提供交互页面,以获取目标对象的对象描述信息和类型信息。
描述信息转换模块,用于提取对象描述信息中的关键信息,形成剧本信息,并确定对象描述文案和匹配的视频数据。
类型信息转换模块,用于依据类型信息,确定对应的音频数据。
描述视频确定模块,用于依据对象描述文案、视频数据和音频数据,确定目标对象的剧情视频。
剧情视频下发模块,用于下发剧情视频,以在展示页面中进行展示。
综上,本申请实施例可以根据目标对象的对象描述信息和类型信息,生成目标对象的剧情视频,以便通过剧情视频对目标对象进行了解。具体的,本申请实施例中服务端可以向第一终端设备提供交互页面,用户可以在交互页面中输入目标对象的对象描述信息和类型信息;对于对象描述信息,可以提取关键信息形成剧本信息,并依据剧本信息,确定对应的对象描述文案和匹配的视频数据;对于类型信息,可以确定对应的音频数据;之后,可以依据对象描述文案、视频数据和音频数据,确定目标对象的剧情视频,并将剧情视频下发给第二终端设备,以便在展示页面中进行展示,展示页面可以理解为用于展示目标对象的相关信息的页面,例如,在宣传目标对象的场景中,可以在展示页面中展示剧情视频,以便通过剧情视频进行目标对象的宣传。
在上述实施例的基础上,本实施例还提供了一种数据处理装置,具体可以包括如下模块:
描述信息确定模块,用于获取目标书籍的书籍描述信息和书籍类型信息。
关键信息提取模块,用于提取书籍描述信息中的关键信息,并依据关键信息进行剧本生成处理,确定剧本信息,所述关键信息包括角色信息、动作信息、场景信息和事件信息,所述剧本生成处理包括对关键信息进行组合、转换、扩充。
剧本信息输入模块,用于将剧本信息输入到多模态匹配模型中,得到与剧本信息匹配的视频数据。
书籍类型转换模块,用于依据书籍类型信息,确定对应的音频数据。
剧情视频生成模块,用于依据视频数据和音频数据,确定目标书籍的剧情视频。
本申请实施例可以提供交互页面,交互页面中包含有描述信息输入接口和类型信息输入接口,用户可以通过描述信息输入接口输入书籍描述信息,通过类型信息输入接口输入书籍类型信息,服务端接收到书籍描述信息和书籍类型信息之后,可以提取书籍描述信息中的关键信息,并依据关键信息进行剧本生成处理,形成剧本信息。之后,可以将剧本信息输入到多模态匹配模型中,得到与剧本信息匹配的视频数据。本申请实施例还可以依据书籍类型信息,确定对应的音频数据。之后,可以依据视频数据和音频数据,确定目标数据的剧情视频,以便于通过剧情视频来了解目标书籍。
在上述实施例的基础上,本实施例还提供了一种数据处理装置,具体可以包括如下模块:
直播音频获取模块,用于获取直播音频数据,并对直播音频数据进行语音识别,确定目标对象的对象描述信息和类型信息。
剧本信息生成模块,用于提取对象描述信息中的关键信息,并依据关键信息进行剧本生成处理,确定至少一个剧本信息,所述关键信息包括角色信息、动作信息、场景信息和事件信息,所述剧本生成处理包括对关键信息进行组合、转换、扩充。
剧本信息匹配模块,用于将剧本信息输入到多模态匹配模型中,得到与剧本信息匹配的视频数据。
类型信息匹配模块,用于依据类型信息,确定对应的音频数据。
剧情视频获得模块,用于依据音频数据和剧本信息对应的视频数据,确定目标对象的剧情视频。
本实施例的实施方式与上述实施例的实施方式类似,具体实施方式可以参考上述实施例的具体实施方式,此处不再赘述。
本申请实施例可以获取介绍目标对象的直播音频数据(可以从直播视频中分离出直播音频),并对直播音频数据进行语音识别,确定目标对象的对象描述信息和类型信息;之后,可以提取对象描述信息中的关键信息,并进行组合、扩充、转换等处理,形成至少一个剧本信息,以输入到多模态匹配模型中,确定与剧本信息匹配的视频数据;本申请实施例还可以依据目标对象的类型信息,确定对应的音频数据,进而依据音频数据和剧本信息对应的视频数据,确定目标对象的剧情视频,以便于通过剧情视频对目标对象进行宣传。
在上述实施例的基础上,本实施例还提供了一种数据处理装置,如图6所示,具体可以包括如下模块:
交互页面提供模块602,用于提供交互页面给终端设备,并基于交互页面获取目标对象的对象描述信息和类型信息。
描述信息识别模块604,用于提取对象描述信息中的关键信息,并依据关键信息进行剧本生成处理,确定至少一个剧本信息,所述关键信息包括角色信息、动作信息、场景信息和事件信息,所述剧本生成处理包括对关键信息进行组合、转换、扩充。
视频数据确定模块606,用于将剧本信息输入到多模态匹配模型中,得到与剧本信息匹配的视频数据。
音频数据确定模块608,用于依据类型信息,确定对应的音频数据。
剧情视频确定模块610,用于依据音频数据和剧本信息对应的视频数据,确定目标对象的剧情视频,并输出剧情视频给终端设备,以在交互页面中进行展示。
本申请实施例可以应用在服务端,服务端可以与终端设备进行交互,以向终端设备提供交互页面,终端设备的用户可以在交互页面中输入对象描述信息和类型信息,以上传给服务端。服务端接收到对象描述信息和类型信息之后,可以提取对象描述信息中的关键信息,并进行组合、扩充、转换等处理,形成至少一个剧本信息,以输入到多模态匹配模型中,确定与剧本信息匹配的视频数据;服务端还可以依据目标对象的类型信息,确定对应的音频数据,进而依据音频数据和剧本信息对应的视频数据,确定目标对象的剧情视频,并输出剧情视频给终端设备,以便在终端设备展示剧情视频。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本申请实施例中各方法步骤的指令(instructions)。
本申请实施例提供了一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得电子设备执行如上述实施例中一个或多个所述的方法。本申请实施例中,所述电子设备包括服务器、终端设备等设备。
本公开的实施例可被实现为使用任意适当的硬件,固件,软件,或及其任意组合进行想要的配置的装置,该装置可包括服务器(集群)、终端等电子设备。图7示意性地示出了可被用于实现本申请中所述的各个实施例的示例性装置700 。
对于一个实施例,图7示出了示例性装置700,该装置具有一个或多个处理器702、被耦合到(一个或多个)处理器702中的至少一个的控制模块(芯片组)704、被耦合到控制模块704的存储器706、被耦合到控制模块704的非易失性存储器(NVM)/存储设备708、被耦合到控制模块704的一个或多个输入/输出设备710,以及被耦合到控制模块704的网络接口712。
处理器702可包括一个或多个单核或多核处理器,处理器702可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中,装置700 能够作为本申请实施例中所述服务端、终端等设备。
在一些实施例中,装置700 可包括具有指令714的一个或多个计算机可读介质(例如,存储器706或NVM/ 存储设备708) 以及与该一个或多个计算机可读介质相合并被配置为执行指令714以实现模块从而执行本公开中所述的动作的一个或多个处理器702。
对于一个实施例,控制模块704可包括任意适当的接口控制器,以向(一个或多个)处理器702中的至少一个和/或与控制模块704通信的任意适当的设备或组件提供任意适当的接口。
控制模块704可包括存储器控制器模块,以向存储器706提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。
存储器706可被用于例如为装置700加载和存储数据和/或指令714。对于一个实施例,存储器706可包括任意适当的易失性存储器,例如,适当的DRAM。在一些实施例中,存储器706可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM) 。
对于一个实施例,控制模块704可包括一个或多个输入/输出控制器,以向NVM/存储设备708及(一个或多个)输入/输出设备710提供接口。
例如,NVM/存储设备708可被用于存储数据和/或指令714。NVM/存储设备708可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(HDD) 、一个或多个光盘(CD) 驱动器和/或一个或多个数字通用光盘(DVD) 驱动器)。
NVM/存储设备708可包括作为装置700 被安装在其上的设备的一部分的存储资源,或者其可被该设备访问可不必作为该设备的一部分。例如, NVM/存储设备708可通过网络经由(一个或多个)输入/输出设备710进行访问。
(一个或多个)输入/输出设备710可为装置700 提供接口以与任意其他适当的设备通信,输入/输出设备710可以包括通信组件、音频组件、传感器组件等。网络接口712可为装置700 提供接口以通过一个或多个网络通信,装置700 可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信,例如接入基于通信标准的无线网络,如WiFi、2G、3G、4G、5G等,或它们的组合进行无线通信。
对于一个实施例,(一个或多个)处理器702中的至少一个可与控制模块704的一个或多个控制器(例如,存储器控制器模块) 的逻辑封装在一起。对于一个实施例,(一个或多个)处理器702中的至少一个可与控制模块704的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP) 。对于一个实施例, (一个或多个)处理器702中的至少一个可与控制模块704的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例, (一个或多个)处理器702中的至少一个可与控制模块704的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC) 。
在各个实施例中,装置700可以但不限于是:服务器、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中,装置700 可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,装置700包括一个或多个摄像机、键盘、液晶显示器(LCD) 屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC) 和扬声器。
其中,检测装置中可采用主控芯片作为处理器或控制模块,传感器数据、位置信息等存储到存储器或NVM/存储设备中,传感器组可作为输入/输出设备,通信接口可包括网络接口。
本申请实施例还提供了一种电子设备,包括:处理器;和存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如本申请实施例中一个或多个所述的方法。
本申请实施例还提供了一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如本申请实施例中一个或多个所述的方法。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种数据处理方法、一种数据处理装置、一种电子设备和一种存储介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (11)

1.一种数据处理方法,其特征在于,所述的方法包括:
获取目标对象的对象描述信息和类型信息;
提取对象描述信息中的关键信息,并依据关键信息进行剧本生成处理,确定至少一个剧本信息,所述关键信息包括角色信息、动作信息、场景信息和事件信息,所述剧本生成处理包括对关键信息进行组合、转换、扩充;
将剧本信息输入到多模态匹配模型中,得到与剧本信息匹配的视频数据;所述多模态匹配模型包括文本特征提取层、特征匹配层和特征映射层,所述文本特征提取层用于对剧本信息进行特征提取,确定第一文本特征;所述文本特征匹配层用于依据第一文本特征进行相似分析,确定文本特征库中对应的第二文本特征;所述特征映射层用于依据文本特征库与视觉特征库之间的对应关系,确定视觉特征库中与第二文本特征对应的目标视觉特征,并获取相应的视频数据;
依据类型信息,确定对应的音频数据;
依据音频数据和剧本信息对应的视频数据,确定目标对象的剧情视频。
2.根据权利要求1所述的方法,其特征在于,所述依据音频数据和剧本信息对应的视频数据,确定目标对象的剧情视频,包括:
获取至少两个剧本信息对应的视频数据,并进行拼接,得到拼接视频;
获取拼接视频中各视频对象的身份相关信息;
将视频对象的身份相关信息转换为目标对象的目标身份信息,并向拼接视频中融入音频数据,形成剧情视频。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对剧本信息进行语义转换,形成对象描述文案,并将对象描述文案添加到剧情视频中。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
提供文案调整页面,以在文案处理页面展示对象描述文案;
基于在文案调整页面中对文案调整控件的触发,获取文案调整信息;
依据文案调整信息,对对象描述文案进行调整。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
提供视频调整页面,以在视频调整页面中展示多个与剧本信息相关的视频数据;
基于在视频调整页面中对视频选择控件的触发,获取视频选择信息;
依据视频选择信息,确定剧本信息匹配的视频数据。
6.根据权利要求1所述的方法,其特征在于,所述确定对应的音频数据,包括:
提供音频调整页面,以在音频调整页面中展示多个与类型信息相关的音频数据;
基于在音频调整页面中对音频选择控件的触发,获取音频选择信息;
依据音频选择信息,确定目标对象的类型信息对应的音频数据。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
提供视频展示页面,以在视频展示页面中展示剧情视频;
基于对视频展示页面中视频调整控件的触发,获取视频调整信息,所述视频调整信息包括音频调整信息和视频调整信息中的至少一个;
基于视频调整信息,确定调整后的剧情视频。
8.一种数据处理方法,其特征在于,所述的方法包括:
获取目标书籍的书籍描述信息和书籍类型信息;
提取书籍描述信息中的关键信息,并依据关键信息进行剧本生成处理,确定剧本信息,所述关键信息包括角色信息、动作信息、场景信息和事件信息,所述剧本生成处理包括对关键信息进行组合、转换、扩充;
将剧本信息输入到多模态匹配模型中,得到与剧本信息匹配的视频数据;所述多模态匹配模型包括文本特征提取层、特征匹配层和特征映射层,所述文本特征提取层用于对剧本信息进行特征提取,确定第一文本特征;所述文本特征匹配层用于依据第一文本特征进行相似分析,确定文本特征库中对应的第二文本特征;所述特征映射层用于依据文本特征库与视觉特征库之间的对应关系,确定视觉特征库中与第二文本特征对应的目标视觉特征,并获取相应的视频数据;
依据书籍类型信息,确定对应的音频数据;
依据视频数据和音频数据,确定目标书籍的剧情视频。
9.一种数据处理方法,其特征在于,所述的方法包括:
获取直播音频数据,并对直播音频数据进行语音识别,确定目标对象的对象描述信息和类型信息;
提取对象描述信息中的关键信息,并依据关键信息进行剧本生成处理,确定至少一个剧本信息,所述关键信息包括角色信息、动作信息、场景信息和事件信息,所述剧本生成处理包括对关键信息进行组合、转换、扩充;
将剧本信息输入到多模态匹配模型中,得到与剧本信息匹配的视频数据;所述多模态匹配模型包括文本特征提取层、特征匹配层和特征映射层,所述文本特征提取层用于对剧本信息进行特征提取,确定第一文本特征;所述文本特征匹配层用于依据第一文本特征进行相似分析,确定文本特征库中对应的第二文本特征;所述特征映射层用于依据文本特征库与视觉特征库之间的对应关系,确定视觉特征库中与第二文本特征对应的目标视觉特征,并获取相应的视频数据;
依据类型信息,确定对应的音频数据;
依据音频数据和剧本信息对应的视频数据,确定目标对象的剧情视频。
10.一种电子设备,其特征在于,包括:处理器;和
存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如权利要求1-9中任一项所述的方法。
11.一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如权利要求1-9中任一项所述的方法。
CN202111389323.0A 2021-11-23 2021-11-23 数据处理方法、装置、电子设备和存储介质 Active CN113821690B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111389323.0A CN113821690B (zh) 2021-11-23 2021-11-23 数据处理方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111389323.0A CN113821690B (zh) 2021-11-23 2021-11-23 数据处理方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN113821690A CN113821690A (zh) 2021-12-21
CN113821690B true CN113821690B (zh) 2022-03-08

Family

ID=78918074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111389323.0A Active CN113821690B (zh) 2021-11-23 2021-11-23 数据处理方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113821690B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114222196A (zh) * 2022-01-04 2022-03-22 阿里巴巴新加坡控股有限公司 一种剧情解说短视频的生成方法、装置及电子设备
CN114900711A (zh) * 2022-05-27 2022-08-12 北京字跳网络技术有限公司 媒体内容的生成方法、装置、设备及存储介质
CN116389853B (zh) * 2023-03-29 2024-02-06 阿里巴巴(中国)有限公司 视频生成方法
CN117085334B (zh) * 2023-08-22 2024-05-28 北京久幺幺科技有限公司 线上剧本杀模板构建方法和线上剧本杀运行方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162667A (zh) * 2019-05-29 2019-08-23 北京三快在线科技有限公司 视频生成方法、装置及存储介质
CN112819933A (zh) * 2020-02-26 2021-05-18 北京澎思科技有限公司 一种数据处理方法、装置、电子设备及存储介质
CN113377971A (zh) * 2021-05-31 2021-09-10 北京达佳互联信息技术有限公司 多媒体资源生成方法、装置、电子设备以及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392690A (zh) * 2021-01-04 2021-09-14 腾讯科技(深圳)有限公司 视频语义标注方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162667A (zh) * 2019-05-29 2019-08-23 北京三快在线科技有限公司 视频生成方法、装置及存储介质
CN112819933A (zh) * 2020-02-26 2021-05-18 北京澎思科技有限公司 一种数据处理方法、装置、电子设备及存储介质
CN113377971A (zh) * 2021-05-31 2021-09-10 北京达佳互联信息技术有限公司 多媒体资源生成方法、装置、电子设备以及存储介质

Also Published As

Publication number Publication date
CN113821690A (zh) 2021-12-21

Similar Documents

Publication Publication Date Title
CN113821690B (zh) 数据处理方法、装置、电子设备和存储介质
CN110968736B (zh) 视频生成方法、装置、电子设备及存储介质
CN110557678B (zh) 视频处理方法、装置及设备
CN111131876B (zh) 视频直播的控制方法、装置、终端及计算机可读存储介质
WO2022134698A1 (zh) 视频处理方法及装置
WO2023045635A1 (zh) 多媒体文件的字幕处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品
WO2023116122A1 (zh) 一种字幕生成方法、电子设备及计算机可读存储介质
CN114390220A (zh) 一种动画视频生成方法及相关装置
WO2021136334A1 (zh) 视频生成方法和装置、电子设备以及计算机可读存储介质
KR20120129015A (ko) 어학 컨텐츠 생성 방법 및 이를 위한 단말기
WO2021184153A1 (zh) 摘要视频的生成方法、装置和服务器
KR101804679B1 (ko) 스토리에 기초하는 멀티미디어 콘텐츠 개발 장치 및 방법
US20220375223A1 (en) Information generation method and apparatus
CN113438532B (zh) 视频处理、视频播放方法、装置、电子设备及存储介质
CN114513706B (zh) 视频生成方法和装置、计算机设备、存储介质
KR20130076852A (ko) 어학 컨텐츠 생성 방법 및 이를 위한 단말기
CN114218413A (zh) 一种用于视频播放视频剪辑的后台系统
CN114742991A (zh) 海报背景图像选取、模型训练、海报生成方法及相关装置
CN113705154A (zh) 基于视频的内容交互方法、装置、计算机设备和存储介质
CN111160051A (zh) 数据处理方法、装置、电子设备及存储介质
CN113312516B (zh) 一种视频处理方法及相关装置
CN113992973B (zh) 视频摘要生成方法、装置、电子设备和存储介质
WO2022201515A1 (ja) サーバおよびアニメーション推薦システム、アニメーション推薦方法、プログラム
US10714146B2 (en) Recording device, recording method, reproducing device, reproducing method, and recording/reproducing device
WO2022201236A1 (ja) サーバおよびシステム、画像切り抜き方法、プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant