CN116419005A - 一种视频合成方法、装置以及可读存储介质 - Google Patents

一种视频合成方法、装置以及可读存储介质 Download PDF

Info

Publication number
CN116419005A
CN116419005A CN202111634313.9A CN202111634313A CN116419005A CN 116419005 A CN116419005 A CN 116419005A CN 202111634313 A CN202111634313 A CN 202111634313A CN 116419005 A CN116419005 A CN 116419005A
Authority
CN
China
Prior art keywords
text
picture
vector
processed
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111634313.9A
Other languages
English (en)
Inventor
程瑞
张金超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111634313.9A priority Critical patent/CN116419005A/zh
Publication of CN116419005A publication Critical patent/CN116419005A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • H04N21/2335Processing of audio elementary streams involving reformatting operations of audio signals, e.g. by converting from one coding standard to another
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4398Processing of audio elementary streams involving reformatting operations of audio signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本申请公开了一种视频合成方法、装置以及可读存储介质,该方法包括:在获取到原始文本时,获取原始文本中的待处理文本;获取待处理文本的文本语义向量,在候选图片对应的候选图片向量中查找与文本语义向量具有相同语义的候选图片向量,基于查找到的候选图片向量所对应的候选图片确定待处理文本对应的文本映射图片;在获取到与待处理文本相关联的语音转换参数时,将待处理文本转换为与语音转换参数相符的文本映射语音;基于待处理文本、文本映射图片和文本映射语音,生成用于合成目标视频的音频帧和视频帧,将生成的音频帧和视频帧进行视频合成处理,得到原始文本对应的目标视频。采用本申请,可以在文本转视频的过程中,丰富文本的视听展示效果。

Description

一种视频合成方法、装置以及可读存储介质
技术领域
本申请涉及互联网技术领域,尤其涉及一种视频合成方法、装置以及可读存储介质。
背景技术
在现有技术中,对于一段已有的文本,可以通过调整该文本的文本显示样式(例如字体、颜色等),或者为该文本手动添加配图等方式来实现不同的展示效果,然而这种展示效果仍然较为单一,往往不能满足业务对象的多样化需求。此外,这些处理方式需要耗费大量的人力和时间,以至于多媒体数据(例如文本、图片等)的展示效率低下。
发明内容
本申请实施例提供了一种视频合成方法、装置以及可读存储介质,可以在文本转视频的过程中,丰富文本的视听展示效果,且提升多媒体数据的展示效率。
本申请实施例一方面提供了一种视频合成方法,包括:
在获取到原始文本时,获取原始文本中的待处理文本;待处理文本的文本长度小于原始文本的文本长度;
获取待处理文本的文本语义向量,在候选图片对应的候选图片向量中查找与文本语义向量具有相同语义的候选图片向量,基于查找到的候选图片向量所对应的候选图片确定待处理文本对应的文本映射图片;
在获取到与待处理文本相关联的语音转换参数时,将待处理文本转换为与语音转换参数相符的文本映射语音;
基于待处理文本、文本映射图片和文本映射语音,生成用于合成目标视频的音频帧和视频帧,将生成的音频帧和视频帧进行视频合成处理,得到原始文本对应的目标视频。
本申请实施例一方面提供了一种视频合成装置,包括:
文本获取模块,用于在获取到原始文本时,获取原始文本中的待处理文本;待处理文本的文本长度小于原始文本的文本长度;
图片查找模块,用于获取待处理文本的文本语义向量,在候选图片对应的候选图片向量中查找与文本语义向量具有相同语义的候选图片向量,基于查找到的候选图片向量所对应的候选图片确定待处理文本对应的文本映射图片;
语音转换模块,用于在获取到与待处理文本相关联的语音转换参数时,将待处理文本转换为与语音转换参数相符的文本映射语音;
视频生成模块,用于基于待处理文本、文本映射图片和文本映射语音,生成用于合成目标视频的音频帧和视频帧,将生成的音频帧和视频帧进行视频合成处理,得到原始文本对应的目标视频。
其中,上述文本获取模块,包括:
第一分割单元,用于在获取到原始文本时,对原始文本中的第一类分割符号进行识别,基于识别到的第一类分割符号对原始文本进行文本分割,将分割得到的原始文本的过渡文本作为第一过渡文本;第一过渡文本的文本长度小于原始文本的文本长度;
文本分类单元,用于在第一过渡文本中,将文本长度大于长度阈值的过渡文本作为待检测文本,并将文本长度小于或者等于长度阈值的过渡文本作为第一待处理文本;
第二分割单元,用于对待检测文本中的第二类分割符号进行识别,基于识别到的第二类分割符号对待检测文本进行文本分割,将分割得到的待检测文本的过渡文本作为第二过渡文本,从第二过渡文本的任意两个相邻过渡文本中获取第i个过渡文本和第j个过渡文本;j=i+1;i为小于K的正整数,K为分割得到的待检测文本的过渡文本的文本数量;
相关检测单元,用于对第i个过渡文本和第j个过渡文本进行文本相关性检测,得到第i个过渡文本和第j个过渡文本之间的文本相关性检测结果,基于文本相关性检测结果得到第二待处理文本,将第一待处理文本和第二待处理文本作为原始文本的待处理文本。
其中,上述相关检测单元,包括:
第一转换子单元,用于对第i个过渡文本进行向量转换,得到第i个过渡文本对应的第一文本转换向量,且对第j个过渡文本进行向量转换,得到第j个过渡文本对应的第二文本转换向量;
模型检测子单元,用于将第一文本转换向量和第二文本转换向量输入至相关性检测模型,通过相关性检测模型对第一文本转换向量和第二文本转换向量进行文本相关性检测,得到第i个过渡文本与第j个过渡文本之间的文本相关性检测结果;
第一确定子单元,用于若文本相关性检测结果指示第i个过渡文本与第j个过渡文本之间具备相关性,则将由第i个过渡文本和第j个过渡文本所合成的合成文本作为第二待处理文本;
第二确定子单元,用于若文本相关性检测结果指示第i个过渡文本与第j个过渡文本之间不具备相关性,则将第i个过渡文本和第j个过渡文本均作为第二待处理文本。
其中,上述图片查找模块,包括:
文本编码单元,用于将待处理文本输入至文本编码模型,通过文本编码模型对待处理文本进行文本编码,得到待处理文本的文本语义向量;
图片编码单元,用于将候选图片输入至图片编码模型,通过图片编码模型对候选图片进行图片编码,得到候选图片对应的候选图片向量;
向量查找单元,用于在候选图片对应的候选图片向量中查找与文本语义向量具有最小向量距离的候选图片向量,作为与文本语义向量具有相同语义的候选图片向量;
图片确定单元,用于基于查找到的候选图片向量所对应的候选图片确定待处理文本对应的文本映射图片。
其中,上述文本编码单元,包括:
第二转换子单元,用于对待处理文本进行向量转换,得到待处理文本对应的第三文本转换向量;
文本编码子单元,用于将第三文本转换向量输入至文本编码模型中的文本编码网络,通过文本编码网络对第三文本转换向量进行文本编码,得到待处理文本的文本语义向量。
其中,上述第二转换子单元,具体用于对待处理文本进行分词处理,得到待处理文本的文本分词,对文本分词进行词向量转换,得到文本分词对应的词向量;获取待处理文本对应的全局语义向量以及文本分词在待处理文本中的文本位置相关联的位置向量,将词向量、全局语义向量以及位置向量进行向量融合,得到待处理文本对应的第三文本转换向量。
其中,文本编码模型中的文本编码网络的数量为M个,M个文本编码网络包括文本编码网络Em和文本编码网络Em+1,文本编码网络Em+1为文本编码网络Em的下一个文本编码网络,m为小于M的正整数;
上述文本编码子单元,具体用于将第三文本转换向量输入至文本编码模型中的文本编码网络,通过文本编码网络Em输出历史文本编码向量,将历史文本编码向量输入至文本编码网络Em+1;在文本编码网络Em+1中,基于历史文本编码向量和文本编码网络Em+1中的多头自注意力网络,得到第一中间编码向量;且对第一中间编码向量和历史文本编码向量进行残差连接以及归一化处理,得到第二中间编码向量,将第二中间编码向量输入至文本编码网络Em+1中的全连接层,得到第三中间编码向量;对第三中间编码向量和第二中间编码向量进行残差连接以及归一化处理,得到文本编码网络Em+1的目标文本编码向量;基于目标文本编码向量得到待处理文本的文本语义向量。
其中,上述图片编码单元,包括:
图像分割子单元,用于对候选图片进行图像分割,将分割得到的图片作为区域图片;
特征提取子单元,用于将区域图片输入至图片编码模型中的特征提取网络,通过特征提取网络对区域图片进行特征提取,得到区域图片对应的图片特征,基于区域图片对应的图片特征得到图片特征序列;
图片编码子单元,用于将图片特征序列输入至图片编码模型中的图片编码网络,通过图片编码网络对图片特征序列进行图片编码,得到候选图片对应的候选图片向量。
其中,若查找到的候选图片向量的向量个数为N个,则查找到的候选图片向量所对应的候选图片的图片个数为N个;N为大于1的正整数;
上述图片确定单元,包括:
参数配置子单元,用于获取查找到的N个候选图片,为N个候选图片配置图片排列顺序和图片切换频率;
图片合成子单元,用于基于配置的图片排列顺序和图片切换频率,对N个候选图片进行图片合成,将合成得到的合成图作为待处理文本对应的文本映射图片。
其中,语音转换参数是由与原始文本相关联的业务对象通过触发声纹列表中的声纹所得到的;声纹列表是由业务对象通过触发声纹选择控件所输出的,或声纹列表是由在待处理文本中所识别到的携带用于表征业务对象的业务对象属性的关键词时输出的;
上述语音转换模块,包括:
音素转换单元,用于在获取到与待处理文本相关联的语音转换参数时,基于语音转换参数对待处理文本进行音素转换,得到待处理文本对应的音素序列,并获取音素序列中的音素所对应的音素参数;音素参数是由语音转换参数所确定的;
语音生成单元,用于基于音素序列和音素参数生成与语音转换参数相符的文本映射语音。
其中,上述视频生成模块,包括:
预处理单元,用于对文本映射图片进行图片预处理,得到具有目标像素的预处理图片;
调整单元,用于基于语音转换参数,确定文本映射语音的语音属性标签,基于语音属性标签调整预处理图片的图片调性,将调整图片调性后的预处理图片作为目标图片,且基于语音属性标签调整待处理文本的文本显示样式,将调整文本显示样式后的待处理文本作为目标文本;
音频帧生成单元,用于对文本映射语音进行音频编码,得到用于合成目标视频的音频帧;
视频帧生成单元,用于基于文本映射语音的语音时长、目标图片以及目标文本,生成与音频帧相关联的视频帧。
其中,上述视频帧生成单元,包括:
第一时间确定子单元,用于基于文本映射语音的语音时长和第一时间间隔,确定目标文本的显示开始时间戳,且基于语音时长和第二时间间隔,确定目标文本的显示结束时间戳,将显示开始时间戳与显示结束时间戳之间的时长作为目标文本的文本显示时长;
第二时间确定子单元,用于基于显示开始时间戳和第三时间间隔,确定目标图片的播放开始时间戳,且基于显示结束时间戳和第四时间间隔,确定目标图片的播放结束时间戳,将播放开始时间戳与播放结束时间戳之间的时长作为目标图片的图片播放时长;
图文对齐子单元,用于将具有文本显示时长的目标文本和具有图片播放时长的目标图片进行对齐处理,基于对齐处理后的目标文本和目标图片生成与音频帧相关联的视频帧。
其中,上述视频生成模块,包括:
音视频对齐单元,用于基于音频帧的持续时长,对音频帧和视频帧进行对齐处理,得到用于合成目标视频的音视频帧;
视频生成单元,用于基于音视频帧生成原始文本对应的目标视频。
本申请实施例一方面提供了一种计算机设备,包括:处理器和存储器;
处理器与存储器相连,其中,存储器用于存储计算机程序,计算机程序被处理器执行时,使得该计算机设备执行本申请实施例提供的方法。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,该计算机程序适于由处理器加载并执行,以使得具有该处理器的计算机设备执行本申请实施例提供的方法。
本申请实施例一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例提供的方法。
本申请实施例在获取到原始文本时,可以从该原始文本中获取待处理文本,这里的待处理文本的文本长度小于原始文本的文本长度。进一步,可以获取待处理文本的文本语义向量,并在候选图片对应的候选图片向量中查找与该文本语义向量具有相同语义的候选图片向量,进而可以基于查找到的候选图片向量所对应的候选图片确定待处理文本对应的文本映射图片。与此同时,在获取到与待处理文本相关联的语音转换参数时,可以将待处理文本转换为与该语音转换参数相符的文本映射语音,进而可以基于待处理文本、文本映射图片和文本映射语音,生成用于合成目标视频的音频帧和视频帧,随后可以将生成的音频帧和视频帧进行视频合成处理,从而得到原始文本对应的目标视频。由此可知,本申请实施例可以快速地获取原始文本中的待处理文本所对应的文本映射图片和文本映射语音,并可以基于获取到的待处理文本、文本映射图片以及文本映射语音,生成相应的目标视频,与单一展示文本或图片的方式相比,本申请实施例通过将文本转换为视频,可以丰富文本的视听展示效果,此外,由于在这个过程中可以智能为文本进行配图和配音,因此还可以提升多媒体数据(例如包含文本、图片、语音的视频)的展示效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构示意图;
图2是本申请实施例提供的一种视频合成的场景示意图;
图3是本申请实施例提供的一种视频合成方法的流程示意图;
图4是本申请实施例提供的一种视频合成方法的流程示意图;
图5是本申请实施例提供的一种文本编码模型的结构示意图;
图6是本申请实施例提供的一种图片编码模型的结构示意图;
图7是本申请实施例提供的一种视频合成的场景示意图;
图8是本申请实施例提供的一种视频合成装置的结构示意图;
图9是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱、信息检索、对话系统等技术。在本申请实施例中,自然语言处理技术可以用于获取待处理文本的文本语义向量。
计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括数据处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。在本申请实施例中,计算机视觉技术可以用于获取候选图片对应的候选图片向量,并在其中查找与文本语义向量具有相同语义的候选图片向量。
语音处理技术(Speech Technology)的关键技术有自动语音识别技术、语音合成技术以及声纹识别技术。其中,语音合成技术(Text-to-Speech,TTS)又称文语转换技术,是将计算机自己产生的、或外部输入的文字信息转换为可以听得懂的、具有高自然度的语音输出的技术,这相当于给机器装上了人工嘴巴,使得机器可以通过不同的音色说出想要表达的内容。语音合成技术涉及声学、语言学、数字信号处理、计算机科学等多个学科技术。在本申请实施例中,语音合成技术可以用于将待处理文本转换为文本映射语音。
本申请实施例提供的方案属于人工智能领域下的机器学习((Machine Learning,ML)。可以理解的是,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。在本申请实施例中,视频合成模型(包括相关性检测模型、文本编码模型、图片编码模型、语音转换模型等)是基于机器学习技术的AI模型,可用于将原始文本转换为相应的目标视频。
请参见图1,图1是本申请实施例提供的一种网络架构示意图。如图1所示,该网络架构可以包括业务服务器100以及终端集群,终端集群可以包括多个用户终端,本申请实施例不对终端集群所包含的用户终端的数量进行限定。例如,终端集群具体可以包括:用户终端200a、用户终端200b、用户终端200c、…、用户终端200n,其中,终端集群之间可以存在通信连接,例如用户终端200a与用户终端200b之间存在通信连接,用户终端200a与用户终端200c之间存在通信连接。同时,终端集群中的任一用户终端可以与业务服务器100存在通信连接,例如用户终端200a与业务服务器100之间存在通信连接。其中,上述通信连接不限定连接方式,可以通过有线通信方式进行直接或间接地连接,也可以通过无线通信方式进行直接或间接地连接,还可以通过其它方式,本申请在此不做限制。
应当理解,如图1所示的终端集群中的每个用户终端均可以安装有应用客户端,当该应用客户端运行于各用户终端中时,可以分别与上述图1所示的业务服务器100之间进行数据交互。其中,这里的应用客户端可以为多媒体客户端(例如,短视频客户端)、社交客户端、资讯类客户端(例如,新闻客户端)、娱乐客户端(例如,阅读类客户端、游戏客户端)、购物客户端、车载客户端、智能家居客户端、浏览器等具有显示文字、图像、音频以及视频等数据信息功能的应用客户端。其中,该应用客户端可以为独立的客户端,也可以为集成在某客户端(例如,社交客户端)中的嵌入式子客户端,在此不做限定。其中,业务服务器100可以为应用客户端对应的后台服务器、数据处理服务器等多个服务器的集合,因此,每个用户终端均可以通过安装好的应用客户端与业务服务器100进行数据传输,如每个用户终端均可以通过业务服务器100将上传的文本合成为相应的视频。
其中,业务服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云数据库、云服务、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。用户终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、掌上电脑、移动互联网设备(mobile internet device,MID)、可穿戴设备(例如智能手表、智能手环等)、智能电脑、智能车载等可以运行上述具有视频合成功能的应用客户端的智能终端。其中,用户终端和业务服务器可以通过有线或无线方式进行直接或间接地连接,本申请实施例在此不做限制。
应当理解,为了丰富视听展示效果,本申请实施例提供了一种文本转视频的方法,可以自动、快速地将文本转换为视频。为了便于后续的理解和说明,本申请实施例可以将需要进行转换的文本称为原始文本,这里的原始文本可以来源于任意文件、网页或从业务平台上抓取到的文本,例如,可以从文档中获取到原始文本,也可以从网络上传播的文章中获取到原始文本;或者,还可以将业务对象通过文本录入操作所录入的文本(例如,在某个网络平台上发表言论时所编辑的文本)作为原始文本,本申请实施例对原始文本的来源不进行限定。其中,本申请实施例可以将与原始文本相关联的用户(例如,上传某个待处理文档的用户)称为业务对象。
为便于理解,下面以图1所示的业务服务器100和用户终端200a为例进行说明。其中,用户终端200a上可以安装并运行有上述列举的某个应用客户端(例如,短视频客户端),因此,与用户终端200a相关联的业务对象可以将包含原始文本的原始文件(或者网页)上传至该应用客户端,进而可以通过该应用客户端将业务对象所上传的原始文件发送至与用户终端200a存在通信连接的业务服务器100。可选的,该原始文件中还可以包含除了文本之外的其他类型的数据,例如图片、音频等,本申请实施例对此不进行限定。在业务服务器100接收到该原始文件后,可以对该原始文件进行文本提取,并将提取到的该原始文件中的文本作为原始文本,进而可以获取该原始文本中的待处理文本,可以理解,这里的待处理文本的文本长度小于原始文本的文本长度,也就是说,待处理文本是从原始文本中所分割出的文本,这样可以有效控制待处理文本的文本长度,为后续的一系列处理提供基础。例如,假设原始文本为一篇文章,对其进行文本分割后就可以得到这篇文章中的多个句子(即待处理文本)。
可选的,也可以由用户终端200a对该原始文件进行文本提取,从而得到该原始文件中的原始文本,进而可以将得到的原始文本发送至业务服务器100。
进一步,业务服务器100可以获取待处理文本的文本语义向量,并在候选图片对应的候选图片向量中查找与该文本语义向量具有相同语义的候选图片向量,进而可以基于查找到的候选图片向量所对应的候选图片确定待处理文本对应的文本映射图片。其中,这里提供的候选图片可以来源于由预先从互联网收集到的大量图片所构成的图片候选库,或者可以来源于用户终端200a的本地缓存(例如,存储在本地相册中的照片),或者可以来源于原始文件(或者网页)所携带的图片,还可以来源于业务对象在访问该应用客户端时所产生的历史图片(例如,业务对象历史浏览\使用\分享\收藏的图片)。与此同时,业务服务器100在获取到与待处理文本相关联的语音转换参数时,可以将待处理文本转换为与该语音转换参数相符的文本映射语音,其中,这里的语音转换参数可用于指示转换得到的文本映射语音的特征(例如音高、音强、音长、音色等),且语音转换参数与目标声纹相关联,本申请实施例可以支持业务对象自己选择目标声纹,也可以基于配置的声纹选择策略来确定目标声纹,因此最终呈现的文本映射语音的音色、韵律等可以是个性化的,例如,业务对象可以选择采用“温柔女声”来播放得到的文本映射语音。进一步,业务服务器100可以基于得到的待处理文本、文本映射图片和文本映射语音,生成用于合成目标视频的音频帧和视频帧,随后可以将生成的音频帧和视频帧进行视频合成处理,从而得到原始文本对应的目标视频。最终,业务服务器100可以将得到的目标视频返回至用户终端200a进行播放。
可以理解,上述方法可以通过调用预先训练好的、基于深度学习技术的视频合成模型来实现。
可以理解的是,本申请实施例提供的方法可以由计算机设备执行,计算机设备包括但不限于用户终端(例如,图1所示的用户终端集群中的任意一个用户终端)或业务服务器(例如,图1所示的业务服务器100)。
可选的,可以理解的是,系统架构中可以包括多个业务服务器,一个用户终端可以与一个业务服务器相连接,每个业务服务器可以获取到与之相连接的用户终端所提供的原始文本(例如,一个网页中的文本),从而可以调用视频合成模型将该原始文本转换为目标视频。
可选的,可以理解的是,用户终端也可以获取到原始文本,从而可以调用视频合成模型将该原始文本转换为目标视频。
其中,可以理解的是,上述网络架构所适用的业务场景具体可以包括:视频制作场景、视频推荐场景、视频搜索场景、图片搜索场景、图片文案匹配场景、语音合成场景、字幕制作场景等,这里将不对具体的业务场景进行一一列举。
比如,在视频制作场景下,某个业务对象(例如,对象X1)可以预先编辑好制作视频时所需要的原始文本(例如视频文案A1),进而可以通过用户终端(例如,上述用户终端200a)上的应用客户端上传该视频文案A1,计算机设备(例如,上述业务服务器100)可以对接收到的视频文案A1进行上述描述的文本分割、图文检索、语音合成以及视频合成等处理,从而可以得到视频文案A1对应的视频(例如,视频B1),并可以将该视频B1返回至应用客户端进行呈现。可以理解,在对象X1对该视频B1的呈现效果不满意时,可以对视频文案A1进行更新,得到视频文案A2,通过类似处理过程,最终可以得到视频文案A2对应的视频(例如,视频B2)。
又比如,在视频推荐场景下,计算机设备(例如,上述业务服务器100)可以基于业务对象(例如,对象X2)所阅读或浏览的原始文本(例如,文章A3),生成与文章A3相对应的视频(例如,视频B3),进而可以将视频B3推送至对象X2对应的应用客户端,从而可以在对象X2进行文本浏览时为其呈现更丰富的视听效果。
又比如,在视频搜索场景下,计算机设备(例如,上述业务服务器100)可以在业务对象(例如,对象X3)进行视频搜索时,基于对象X3所输入的搜索内容确定原始文本(例如,文本A4),将基于该文本A4所生成的视频(例如,视频B4)作为视频搜索结果推送给对象X3。
又比如,在图片搜索场景下,计算机设备(例如,上述业务服务器100)可以在业务对象(例如,对象X4)进行图片搜索时,基于对象X4所输入的搜索内容确定原始文本(例如,文本A5),进而可以获取该文本A5的文本语义向量(例如,向量C1),在多个候选图片对应的候选图片向量中查找与该向量C具有相同语义的候选图片向量,并可以基于查找到的候选图片向量所对应的候选图片确定文本A5对应的图片(例如,图片D1),随后可以将得到的图片D1作为图片搜索结果推送给对象X4。例如,对象X4在进行文章创作的过程中,可以将文章中的句子作为搜索内容,从而可以高效地获取到合适的配图,提升多模态内容的制作效率。
又比如,在图片文案匹配场景下,计算机设备(例如,上述业务服务器100)可以获取业务对象(例如,对象X5)所上传的图片(例如,图片D2),并可以为该图片D2获取相应的文本(例如,文本A6)。例如,对象X5在网络平台上发表图片动态时,可以自动配上相关文字。
又比如,在语音合成场景下,计算机设备(例如,上述业务服务器100)可以获取业务对象(例如,对象X6)通过用户终端(例如,上述用户终端200a)上的应用客户端所上传的文本(例如,文本A7),并获取与该文本A7相关联的语音转换参数,进而可以将该文本A7转换为与该语音转换参数相符的语音(例如,语音E),并将该语音E返回至对象X6对应的应用客户端进行播放。其中,对象X6可以根据需要来调整语音转换参数,从而可以实现听觉效果展示的个性化需求。
为便于理解,请一并参见图2,图2是本申请实施例提供的一种视频合成的场景示意图。其中,该场景可以由计算机设备(例如,计算机设备20,未在图中画出)实现,该计算机设备可以为上述图1所对应实施例中的业务服务器100或者用户终端集群中的任意一个用户终端(例如,用户终端200a),且业务对象A与该计算机设备相关联。
如图2所示,计算机设备20可以先获取原始文本(例如,文本201),这里的文本201可以是从计算机设备20的本地缓存中获取到的文本,也可以是从某个业务平台(例如,资讯平台)获取到的文本,还可以是业务对象A所上传的文本(例如,业务对象A通过相应的应用客户端所编辑的文本),本申请实施例对文本201的来源不进行限定,此外,本申请实施例对文本201的格式也不进行限定。
可以理解,文本201中可以包含字符、符号(例如,标点符号)等多种文本数据,这些字符和符号可以组成不同的句子、段落或章节,为了提升视频合成效率和合成效果,计算机设备20可以对文本201进行文本分割,从而得到文本201中的待处理文本(例如,分割得到的多个句子)。其中,可选的,计算机设备20可以对文本201中的分割符号(例如,标点符号)进行识别,进而可以基于识别到的分割符号对文本201进行文本分割,例如,可以基于识别到的句号、问号、感叹号等标点符号,在文本201中获取分割出来的句子。如图2所示,假设计算机设备20对文本201进行文本分割后,可以得到m个(m为大于1的正整数)待处理文本,m个待处理文本具体可以包括文本201a、文本201b、…、文本201m,其中,每个待处理文本的文本长度均小于原始文本的文本长度,例如,文本201a的字符数量要小于文本201的字符数量。
应当理解,为了获取与每个待处理文本相对应的文本映射图片,计算机设备20可以基于在候选图片中查找到的与某个待处理文本语义相近的候选图片,确定该待处理文本所对应的文本映射图片,其中,计算机设备20可以从向量的角度计算待处理文本与候选图片之间的相似度。具体来说,计算机设备20可以对上述得到的每个待处理文本进行文本编码,从而可以得到每个待处理文本分别对应的文本语义向量。例如,如图2所示,计算机设备20对文本201a进行文本编码,可以得到文本201a的文本语义向量202a;对文本201b进行文本编码,可以得到文本201b的文本语义向量202b;…;对文本201m进行文本编码,可以得到文本201m的文本语义向量202m。如图2所示,本申请实施例提供了多个(例如n个,n为大于1的正整数)候选图片可供检索,这里的候选图片可以是计算机设备20从互联网上获取到的图片,也可以是存储在计算机设备20的本地缓存中的图片,还可以是与业务对象A的历史对象行为相关联的历史图片,本申请实施例对此不进行限定。其中,n个候选图片具体可以包括候选图片203a、候选图片203b、候选图片203c、…、候选图片203n,此外,计算机设备20还可以分别对n个候选图片进行图片编码,从而得到每个候选图片对应的候选图片向量,例如,计算机设备20对候选图片203a进行图片编码,可以得到候选图片203a对应的候选图片向量204a;对候选图片203b进行图片编码,可以得到候选图片203b对应的候选图片向量204b;对候选图片203c进行图片编码,可以得到候选图片203c对应的候选图片向量204c;…;对候选图片203n进行图片编码,可以得到候选图片203n对应的候选图片向量204n。可以理解,对候选图片进行图片编码的工作可以由计算机设备20预先执行。
进一步,计算机设备20可以在上述n个候选图片向量中分别查找与每个文本语义向量具有相同语义的候选图片向量,从而可以基于查找到的候选图片向量所对应的候选图片确定每个待处理文本所对应的文本映射图片。例如,这里以文本201a为例进行说明,计算机设备20可以在n个候选图片向量中查找到与文本语义向量202a具有相同语义的候选图片向量,假设查找到的候选图片向量的个数为n1个(n1为正整数),则计算机设备20可以基于这n1个候选图片向量所对应的n1个候选图片,确定文本201a所对应的文本映射图片。可以理解,可选的,在n1等于1时,可以直接将查找到的这一个候选图片向量(例如,候选图片向量204a)对应的候选图片(例如,候选图片203a)作为文本201a所对应的文本映射图片;可选的,在n1大于1时,可以将这n1个(例如,2个)候选图片向量(例如,候选图片向量204a和候选图片向量204b)对应的候选图片(例如,候选图片203a、候选图片203b)进行图片合成所得到的合成图作为文本201a所对应的文本映射图片,例如,可以将这n1个候选图片合成为动态的合成图(例如动图)。计算机设备20获取其它待处理文本对应的文本映射图片的过程可以参见上述获取文本201a对应的文本映射图片的过程,这里不再进行赘述。如图2所示,假设经过上述检索过程,最终可以得到文本201a所对应的文本映射图片为图片205a,文本201b所对应的文本映射图片为图片205b,…,文本201m所对应的文本映射图片为图片205m。
此外,计算机设备20可以将待处理文本转换为文本映射语音,其中,文本映射语音可以由计算机设备20获取到的语音转换参数(例如语音转换参数206)所确定。这里的语音转换参数206可以由业务对象A通过声纹选择得到,也可以由计算机设备20所配置的声纹选择策略得到,本申请实施例对此不进行限定。例如,如图2所示,假设业务对象A选择了声纹B作为目标声纹,则计算机设备可以获取与该声纹B相关联的语音转换参数206,并可以将上述m个待处理文本转换为与该语音转换参数206相符的文本映射语音,例如,将文本201a转换为语音207a,将文本201b转换为语音207b,…,将文本201m转换为语音207m。
进一步,计算机设备20可以基于上述m个文本映射语音生成相应的音频帧,例如,计算机设备20可以对语音207a进行音频编码,从而得到语音207a对应的音频帧208a;对语音207b进行音频编码,从而得到语音207b对应的音频帧208b;…;对语音207m进行音频编码,从而得到语音207m对应的音频帧208m。其中,音频帧208a、音频帧208b、…、以及音频帧208m中均可以包括一个或多个音频帧,具体的帧数由计算机设备20所采用的的音频编码方式所确定,本申请实施例对此不进行限定。此外,计算机设备20还可以基于上述待处理文本和文本映射图片生成相应的视频帧,例如,基于文本201a和图片205a,生成视频帧209a;基于文本201b和图片205b,生成视频帧209b;…;基于文本201m和图片205m,生成视频帧209m。
最终,计算机设备20可以将生成的音频帧和视频帧进行视频合成处理,以得到原始文本对应的目标视频。如图2所示,计算机设备20可以将每个音频帧(例如,音频帧208a)与对应的视频帧(例如,视频帧209a)进行对齐处理,从而得到用于合成目标视频的音视频帧,进而可以基于得到的音视频帧(例如,m个音视频帧)生成原始文本(例如,文本201)对应的目标视频(例如,视频210)。
可以理解,与单纯展示文本201相比,通过播放得到的视频210,可以为业务对象A提供更丰富的视听展示效果,例如除了可以看到在视频中以字幕形式呈现的文本,还可以看到与每个待处理文本语义相符的配图,同时可以听到以目标声纹播放的配音。此外,计算机设备20可以调用预先训练好的视频合成模型,智能为文本进行配图和配音,并自动转换为视频,因此可以提升多媒体数据(例如包含文本、图片、语音的视频)的制作效率和展示效率。
其中,计算机设备20获取原始文本中的待处理文本及待处理文本所对应的文本映射图片和文本映射语音,并基于获取到的待处理文本、文本映射图片以及文本映射语音生成目标视频的具体实现方式,可以参见下述图3-图7所对应实施例中的描述。
请参见图3,图3是本申请实施例提供的一种视频合成方法的流程示意图。该视频合成方法可以由计算机设备执行,计算机设备可以包括但不限于运行有视频合成模型的用户终端或业务服务器。为便于理解,本申请实施例以该方法由业务服务器执行为例进行说明。如图3所示,该视频合成方法至少可以包括以下步骤S101-步骤S104:
步骤S101,在获取到原始文本时,获取原始文本中的待处理文本;
具体的,业务服务器可以对原始文件、网页等进行文本提取,从而可以获取到原始文本。在获取到该原始文本后,业务服务器可以对原始文本中的第一类分割符号进行识别,进而可以基于识别到的第一类分割符号对原始文本进行文本分割,并可将分割得到的原始文本的过渡文本作为第一过渡文本,其中,第一过渡文本的文本长度小于原始文本的文本长度,本申请实施例对第一过渡文本的文本长度不进行限定,且对原始文本的过渡文本的文本数量也不进行限定。例如,可以将一篇长篇文章(即原始文本)分割为多个句子(即过渡文本)。这里的第一类分割符号可以包括句号、问号、感叹号、双引号等可用于句子末尾或其它特定位置的标点符号,实际应用时可以根据业务需要对第一类分割符号所包含的具体符号进行指定,本申请实施例对此不进行限定。
可以理解,由于各类语言表达形式的多变性,当得到的某个第一过渡文本的文本长度较长时,虽然该第一过渡文本中未包含第一类分割符号,但是根据语义需要二次进行文本分割,以此控制最终得到的待处理文本的文本长度。基于此,在第一过渡文本中,业务服务器可以将文本长度大于长度阈值的过渡文本作为待检测文本,并将文本长度小于或者等于长度阈值的过渡文本作为第一待处理文本。其中,长度阈值的大小可以根据需要进行调整,本申请实施例对此不进行限定。进一步,业务服务器可以对待检测文本中的第二类分割符号进行识别,进而可以基于识别到的第二类分割符号对该待检测文本进行文本分割,并可将分割得到的待检测文本的过渡文本作为第二过渡文本。其中,第二过渡文本的文本长度小于待检测文本的文本长度,本申请实施例对第二过渡文本的文本长度不进行限定。这里的第二类分割符号可以包括逗号、分号等可用于句子中间或其它特定位置的标点符号,实际应用时可以根据业务需要对第二类分割符号所包含的具体符号进行指定,本申请实施例对此不进行限定。例如,请再次参见上述图2,假设图2所示的文本201a为从文本201中分割出来的第一过渡文本,在文本201a的文本长度大于长度阈值(例如,20个字)时,可以继续对文本201a进行文本分割。
其中,本申请实施例可以采用正则表达式、函数查找或者查表等方式来识别文本中的分割符号(包括第一类分割符号和第二类分割符号),本申请实施例对采用的具体识别方式不进行限定。其中,正则表达式(也可以称为规则表达式)描述了一种字符串匹配的模式,可以用来检查一个字符串是否含有某种子串、将匹配的子串替换或者从某个字符串中取出符合某个条件的子串等,因此,利用不同的正则表达式可以识别出第一类分割符号(例如句号、感叹号、问号等)和第二类分割符号(例如逗号、分号等),以实现对原始文本的文本分割。
进一步,业务服务器可以检测第二过渡文本中任意两个相邻过渡文本之间是否具备相关性,以此判断是否将这两个相邻过渡文本作为后续使用的待处理文本。为便于理解,这里以第二过渡文本的第i个过渡文本和第j个过渡文本为例进行说明。在本申请实施例中,业务服务器可以从第二过渡文本的任意两个相邻过渡文本中获取第i个过渡文本和第j个过渡文本,其中,j=i+1,i为小于K的正整数,K为分割得到的待检测文本的过渡文本的文本数量,本申请实施例对K的具体数值不进行限定。进一步,业务服务器可以对第i个过渡文本和第j个过渡文本进行文本相关性检测,从而得到第i个过渡文本和第j个过渡文本之间的文本相关性检测结果,进而可以基于文本相关性检测结果得到第二待处理文本,最终可以将第一待处理文本和第二待处理文本作为原始文本的待处理文本。
其中,本申请实施例可以采用相关性检测模型对第i个过渡文本和第j个过渡文本进行文本相关性检测,具体过程可以为:业务服务器可以对第i个过渡文本进行向量转换,得到第i个过渡文本对应的第一文本转换向量,且可以对第j个过渡文本进行向量转换,得到第j个过渡文本对应的第二文本转换向量。进一步,可以将第一文本转换向量和第二文本转换向量输入至相关性检测模型,通过相关性检测模型对第一文本转换向量和第二文本转换向量进行文本相关性检测,可以得到第i个过渡文本与第j个过渡文本之间的文本相关性检测结果。
可选的,若文本相关性检测结果指示第i个过渡文本与第j个过渡文本之间具备相关性,则可以将由第i个过渡文本和第j个过渡文本所合成的合成文本作为第二待处理文本,其中,这里的合成文本可以通过对第i个过渡文本和第j个过渡文本进行文本拼接得到。
可选的,若文本相关性检测结果指示第i个过渡文本与第j个过渡文本之间不具备相关性,则可以将第i个过渡文本和第j个过渡文本均作为第二待处理文本。也就是说,通过相关性检测模型可以判断第i个过渡文本和第j个过渡文本之间是否具备相关性,如果不具备相关性,则表示针对这两个过渡文本的二次分割是恰当的。
例如,请再次参见上述图2,假设基于识别到的第二类分割符号(例如,逗号)对文本201a进行文本分割,得到文本2011a和文本2012a,则计算机设备20可以调用预先训练好的相关性检测模型对文本2011a和文本2012a进行文本相关性检测,若检测到文本2011a与文本2012a之间具备相关性,则可以将文本2011a和文本2012a对应的合成文本(即文本201a)作为第二待处理文本;反之,若检测到文本2011a与文本2012a之间不具备相关性,则可以将文本2011a和文本2012均作为第二待处理文本。
其中,业务服务器可以利用具有海量文本的文本数据库,训练深度神经网络得到相关性检测模型。可选的,可以采用BERT(Bidirectional Encoder Representations fromTransformers)、Transformer、ELMo(Embeddings from Language Models)等网络搭建得到相关性检测模型,本申请实施例对相关性检测模型所采用的网络结构不进行限定。
上述可知,本申请实施例可以采用符号识别+基于相关性检测模型的文本相关性检测的方法来实现对原始文本的文本分割,因此,可以有效地划分文本长度较长的文本(例如,某个字符数量较多的长句)的语义,并且控制待处理文本的文本长度,从而为后续步骤提供基础。
步骤S102,获取待处理文本的文本语义向量,在候选图片对应的候选图片向量中查找与文本语义向量具有相同语义的候选图片向量,基于查找到的候选图片向量所对应的候选图片确定待处理文本对应的文本映射图片;
在本申请实施例中,业务服务器可以基于向量之间的相似度来进行跨模态语义检索,以获取待处理文本对应的文本映射图片。具体的,业务服务器可以将待处理文本输入至文本编码模型,通过文本编码模型对待处理文本进行文本编码,可以得到待处理文本的文本语义向量。此外,业务服务器可以将候选图片输入至图片编码模型,通过图片编码模型对候选图片进行图片编码,可以得到候选图片对应的候选图片向量,可以理解,由于候选图片是预先准备好的,因此业务服务器也可以在获取到候选图片时,对该候选图片进行图片编码(例如离线处理),从而可以提升跨模态语义检索的效率。
进一步,业务服务器可以在候选图片对应的候选图片向量中查找与文本语义向量具有最小向量距离的候选图片向量,作为与文本语义向量具有相同语义的候选图片向量,进而可以基于查找到的候选图片向量所对应的候选图片确定待处理文本对应的文本映射图片。其中,这里的向量距离可以为余弦距离、汉明距离、欧式距离等可用于表征候选图片向量与文本语义向量之间的相似度的参数,本申请实施例对此不进行限定。例如,请再次参见上述图2,如图2所示,假设计算机设备20在n个候选图片向量中查找到的与文本语义向量202a具有最小向量距离(例如,最小余弦距离)的候选图片向量为候选图片向量204b,则可以将候选图片向量204b对应的候选图片203b作为文本201a对应的文本映射图片。
需要说明的是,本申请实施例中的候选图片可以来源于由预先从互联网收集到的图片所构成的大规模的图片候选库,或者可以来源于业务服务器的本地缓存,或者可以来源于与原始文本相关联的原始文件或者网页中的图片,还可以来源于业务对象在访问相应的应用客户端时所产生的历史图片。其中,业务服务器可以获取业务对象的历史对象数据,进而可以从历史对象数据中获取与业务对象相关联的历史图片。其中,历史对象数据用于记录业务对象访问应用客户端(例如,短视频客户端)时,产生的历史对象行为(编辑、访问,浏览,搜索,点击、分享等),这里的历史对象行为可以包括针对图片的行为,例如业务对象上传的图片、访问的图片、浏览的图片、编辑的图片、搜索的图片,以及业务对象发布的图片、保存的图片、收藏的图片、推荐的图片、点赞的图片、转发的图片、评论的图片等,均属于历史图片。
可以理解的是,在本申请的具体实施方式中,涉及到历史对象数据、历史对象行为、历史图片等相关的数据,当本申请中的实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
其中,应当理解,对待处理文本进行文本编码的具体过程可以为:业务服务器可以对待处理文本进行向量转换,得到待处理文本对应的第三文本转换向量,进而可以将第三文本转换向量输入至文本编码模型中的文本编码网络,通过文本编码网络对第三文本转换向量进行文本编码,可以得到待处理文本的文本语义向量。
其中,应当理解,对候选图片进行图片编码的具体过程可以为:业务服务器可以对候选图片进行图像分割,并将分割得到的图片作为区域图片。其中,对候选图片进行图像分割可以得到多个区域图片,且每个区域图片可以具有相同的图片尺寸,因此,业务服务器可以对候选图片进行均匀分割,特别的,当某个候选图片的图片尺寸不适宜均匀分割时,业务服务器可以在进行图像分割前,先对该候选图片进行放大处理或缩小处理,以得到具有合适尺寸的待分割图像,然后业务服务器再对该待分割图像进行图像分割。本申请实施例对分割得到的区域图片的图片数量和图片尺寸不进行限定。进一步,业务服务器可以将区域图片输入至图片编码模型中的特征提取网络,通过该特征提取网络对区域图片进行特征提取,可以得到区域图片对应的图片特征,进而可以基于区域图片对应的图片特征得到图片特征序列。进一步,业务服务器可以将图片特征序列输入至图片编码模型中的图片编码网络,通过图片编码网络对图片特征序列进行图片编码,可以得到候选图片对应的候选图片向量。
可以理解,本申请实施例可以基于上述文本编码模型、图片编码模型以及查找模块,构建用于进行跨模态语义检索的图文检索模型。其中,业务服务器可以利用具有海量多媒体数据(可包括图片数据和图片标题数据,例如,可以从互联网收集得到)的多媒体数据库,训练深度神经网络得到图文检索模型。需要说明的是,文本编码模型和图片编码模型可以单独进行搭建和训练,或者,也可以联合进行搭建和训练,本申请实施例对此不进行限定。其中,可选的,可以采用BERT、ELMo、Transformer、DAN(Deep Averaging Network,深度平均网络)等网络搭建得到文本编码模型;可选的,可以采用Vision Transformer、Hybrid(一种卷积和Transformer混合模型)、ResNet(残差神经网络)等网络搭建得到图片编码模型,本申请实施例对文本编码模型和图片编码模型所采用的网络结构不进行限定。
应当理解,若上述查找到的候选图片向量的向量个数为N个,则查找到的候选图片向量所对应的候选图片的图片个数为N个。可选的,若N等于1,则业务服务器可以将查找到的这一个候选图片向量所对应的候选图片作为待处理文本对应的文本映射图片。可选的,若N为大于1的正整数,则业务服务器可以将查找到的N个候选图片向量所对应的N个候选图片合成为待处理文本对应的文本映射图片,其具体过程可以为:业务服务器获取查找到的N个候选图片,并可以为N个候选图片配置图片排列顺序和图片切换频率,进而可以基于配置的图片排列顺序和图片切换频率,对N个候选图片进行图片合成,随后可以将合成得到的合成图作为待处理文本对应的文本映射图片。例如,假设业务服务器查找到了3个候选图片,分别为候选图片1、候选图片2以及候选图片3,则业务服务器可以为这3个候选图片配置图片排列顺序(例如,按照候选图片2-候选图片1-候选图片3的顺序)和图片切换频率(例如,每1秒切换一张图片),最终可以将这3个候选图片合成得到的一个动态图片(简称动图)作为相应的文本映射图片。
上述可知,与传统的检索算法相比,本申请实施例采用的图文检索模型可以直接理解并编码文本和图片,将两者的表示特征映射到同一空间,可以实现“文-图”与“图-文”的直接跨模态检索,因此可以提升跨模态语义检索的效率和准确率,同时也可以提升业务对象进行多模态内容创作分享(例如,制作视频或创作文章)的效率。
步骤S103,在获取到与待处理文本相关联的语音转换参数时,将待处理文本转换为与语音转换参数相符的文本映射语音;
在本申请实施例中,语音转换参数是由与原始文本相关联的业务对象通过触发声纹列表中的声纹所得到的。可以理解,在文本转语音时,可选的,业务对象对应的应用客户端可以响应于业务对象针对声纹选择控件的触发操作,输出声纹列表,也就是说,这里的声纹列表是由业务对象通过触发声纹选择控件所输出的;可选的,应用客户端可以响应于针对声纹列表的语音录入操作,获取业务对象录入的对象语音,并可以将该对象语音发送至业务服务器,进而业务服务器可以对接收到的对象语音进行声纹识别,从而得到业务对象的声纹,并将业务对象的声纹添加至声纹列表。可选的,该业务对象(例如,业务对象1)还可以将其他业务对象(例如,业务对象2)的声纹添加至声纹列表,例如,业务对象1可以将一段业务对象2的语音(例如,可存储在业务对象1对应的用户终端本地)上传至应用客户端,通过上述类似处理,最终可以在声纹列表中添加业务对象2的声纹。又或者,业务服务器可以对待处理文本中的用于表征业务对象的业务对象属性的关键词进行识别,进而可以基于识别到的关键词生成业务通知消息,并将该业务通知消息返回至业务对象对应的应用客户端,以使该应用客户端在接收到该业务通知消息时输出声纹列表,也就是说,这里的声纹列表是由在待处理文本中所识别到的携带用于表征业务对象的业务对象属性的关键词时输出的。
其中,业务对象属性可以用于表征业务对象的情绪\情感或者属性特征,例如,情绪可以包括开心、激动、悲伤等,属性特征可以包括业务对象的性别等,每一类业务对象属性均可以配置一个或者多个关键词,例如,业务对象属性为开心的情绪时,其对应的关键词可以设置为“哈哈哈哈”、“好高兴”等,本申请实施例对此不做限定。
可以理解的是,在本申请的具体实施方式中,涉及到业务对象属性、业务对象的声纹等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
可以理解,声纹列表中可以包含一个或者多个声纹,本申请实施例对声纹列表中的声纹数量不进行限定。例如,应用客户端可以响应于业务对象针对声纹列表的选择操作,将该选择操作所对应的声纹作为目标声纹,进而可以将该目标声纹发送至业务服务器,以使业务服务器获取该目标声纹所对应的语音转换参数,其中,声纹列表中的每个声纹都可以对应于一组语音转换参数。可选的,业务服务器也可以配置相应的声纹选择策略,以在声纹列表中确定目标声纹,例如,在待处理文本中识别到目标关键词时,可以确定待处理文本满足声纹选择策略,因此业务服务器可以自动选择与该目标关键词相关联的声纹作为目标声纹。可选的,业务服务器也可以检测待处理文本的文本长度,例如,在检测到待处理文本的文本长度达到目标长度阈值时,可以确定该待处理文本满足声纹选择策略,因此业务服务器可以自动选择与该目标长度阈值相关联的声纹作为目标声纹。
可以理解,业务服务器可以将待处理文本转换为与语音转换参数相符的文本映射语音,具体过程可以为:在获取到与待处理文本相关联的语音转换参数时,业务服务器可以基于语音转换参数对待处理文本进行音素转换,得到待处理文本对应的音素序列,并可以获取音素序列中的音素所对应的音素参数,其中,音素参数是由语音转换参数所确定的。其中,音素(phoneme)是指从音质角度划分出来的的最小声音单位。进一步,业务服务器可以基于音素序列和音素参数生成与语音转换参数相符的文本映射语音。
应当理解,本申请实施例可以采用语音合成技术(TTS)将待处理文本转换为文本映射语音。例如,业务服务器可以将待处理文本输入至语音转换模型,通过语音转换模型中的文本处理网络对待处理文本进行文本处理,即基于语音转换参数将待处理文本转换为音素序列,并可以标出音素序列中的每个音素对应的音素参数(例如,起止时间、频率变化等信息),在文本处理过程中还可以处理拼写相同但读音不同的词的区分、缩写的处理、停顿位置的确定等难点问题。进而可以通过语音转换模型中的语音转换网络,根据音素序列以及标注的每个音素对应的音素参数生成文本映射语音。在本申请实施例中,可以采用拼接法、参数法、声道模拟法等方式进行文本到语音的转换,其中,拼接法是从事先录制的音频片段中选取基本单位进行拼接,参数法是训练音素参数转化为波形,声道模拟法是直接将文本转化为物理声信号。
可以理解,业务服务器可以利用具有海量文本数据和语音数据的数据库,训练深度神经网络得到语音转换模型。其中,可选的,可以采用Transformer、wavenet(一种利用神经网络对原始音频波形建模的技术),Tacotron(一种从文字直接合成语音的端到端的语音合成模型),Tacotron2(对Tacotron进行改良后的模型)以及deepvoice3(基于注意力机制的全卷积神经元语音合成系统)等网络搭建得到语音转换模型,本申请实施例对语音转换模型所采用的网络结构不进行限定。
可选的,业务服务器还可以在文本映射语音插入空白声音或者其它背景音(例如,背景音乐)等。
步骤S104,基于待处理文本、文本映射图片和文本映射语音,生成用于合成目标视频的音频帧和视频帧,将生成的音频帧和视频帧进行视频合成处理,得到原始文本对应的目标视频。
具体的,业务服务器可以对文本映射图片进行图片预处理(包括缩放处理、对齐处理等),从而得到具有目标像素的预处理图片,例如,可以通过Pillow工具对文本映射图片进行缩放处理、对齐处理等一系列预处理,从而将每个文本映射图片均处理为具有相同像素大小的文本映射图片进。其中,Pillow是PIL(Python Imaging Library,Python图像库)的一个分支,提供了许多图片处理功能。
进一步,业务服务器可以基于语音转换参数,确定文本映射语音的语音属性标签,其中,语音属性标签可以用于表征文本映射语音的语音属性,这里的语音属性可以指文本映射语音所展现的风格或情感。进一步,业务服务器可以基于该语音属性标签调整预处理图片的图片调性,并将调整图片调性后的预处理图片作为目标图片,且可以基于语音属性标签调整待处理文本的文本显示样式,并将调整文本显示样式后的待处理文本作为目标文本。其中,这里的图片调性可以指预处理图片的图片风格,文本显示样式可以包括待处理文本的字体、字号、颜色、切换效果等。例如,在获取到语音属性标签为“舒缓”时,业务服务器可以将预处理图片的图片调性调整为与“舒缓”相符的图片调性(例如,将预处理图片的色调调整为暖色),且可以将待处理文本的文本显示样式调整为与“舒缓”相符的文本显示样式(例如,将待处理文本的颜色调整为暖色)。
进一步,业务服务器可以对文本映射语音进行音频编码,从而得到用于合成目标视频的音频帧。例如,业务服务器可以采用特定的音频编码方式对文本映射语音进行音频编码,可以理解,不同的音频编码方式可能会有不同的编码参数(例如采样率、采样大小、比特率等),因此最终得到的音频帧也可能不相同。其中,常用的音频编码标准包括G.711(是国际电信联盟定制出来的一套语音压缩标准)、AAC(Advanced Audio Coding,于1997年推出的基于MPEG-2的音频编码技术)、Opus(一个有损声音编码的格式)等;由音频帧组成的音频文件可以封装为MP3(Moving Picture Experts Group Audio Layer III)、OGG(OGGVobis(oggVorbis))、AAC等文件格式。本申请实施例对业务服务器采用的音频编码方式不进行限定,同时对业务服务器基于编码参数对文本映射语音进行音频编码所得到的音频帧的数量和大小也不进行限定。
此外,业务服务器可以基于文本映射语音的语音时长、目标图片以及目标文本,生成与音频帧相关联的视频帧。具体过程可以为:业务服务器可以基于文本映射语音的语音时长和第一时间间隔,确定目标文本的显示开始时间戳,且可以基于语音时长和第二时间间隔,确定目标文本的显示结束时间戳,并可以将显示开始时间戳与显示结束时间戳之间的时长作为目标文本的文本显示时长。进一步,业务服务器可以基于显示开始时间戳和第三时间间隔,确定目标图片的播放开始时间戳,且可以基于显示结束时间戳和第四时间间隔,确定目标图片的播放结束时间戳,并可以将播放开始时间戳与播放结束时间戳之间的时长作为目标图片的图片播放时长。进一步,业务服务器将具有文本显示时长的目标文本和具有图片播放时长的目标图片进行对齐处理,从而可以基于对齐处理后的目标文本和目标图片生成与音频帧相关联的视频帧。其中,本申请实施例对第一时间间隔、第二时间间隔、第三时间间隔以及第四时间间隔的具体大小不进行限定。可以理解,本申请实施例对语音时长、文本显示时长、图片播放时长之间的大小关系也不进行限定,例如,可选的,可以设置语音时长=文本显示时长=图片播放时长。此外,业务对象可以根据需要来调整上述提及的相关时间戳或者时长。需要说明的是,业务服务器可以采用特定的视频编码方式对目标图片进行视频编码,并可以采用特定的文本编码方式(例如SubRip、ASS(AdvancedSubStation Alpha)等)对标文本进行文本编码,最终可以得到编码后的视频帧。其中,常用的视频编码标准包括H.265(H.265-HEVC(High Efficiency Video Coding),国际电联于2013年通过的高效视频编码标准)、H.264(由国际电联和国际标准化组织共同提出的高度压缩数字视频编解码器标准)、MPEG-4(Moving Picture Experts Group 4,动态图象专家组于1999年推出的适用于低传输速率应用的方案)等。本申请实施例对业务服务器采用的视频编码方式和文本编码方式不进行限定。
其中,可以理解,实际应用中会因为各种原因导致音视频不同步,如每帧视频帧解码和渲染的时长有差别,色彩丰富的视频帧可能就比色彩单一的视频帧解码渲染更慢等,本申请实施例可以支持多种音视频同步方式,例如,视频同步到音频、音频同步到视频、音视频同步到外部时钟等。例如,对于视频同步到音频,业务服务器可以基于音频帧的持续时长,对该音频帧和对应的视频帧进行对齐处理,从而得到用于合成目标视频的音视频帧,进而可以基于音视频帧生成原始文本对应的目标视频。例如,可以参见上述图2,如图2所示,计算机设备20可以将音频帧208a与视频帧209a进行对齐处理,得到音视频帧1;将音频帧208b与视频帧209b进行对齐处理,得到音视频帧2;…;将音频帧208m与视频帧209m进行对齐处理,得到音视频帧m,最终可以基于音视频帧1、音视频帧2、…、音视频帧m生成视频210。其中,这里说的音视频同步是允许一定延迟的,即延迟要在可接受的延迟范围内,相当于一个反馈机制,当视频慢于音频就要加快视频的播放速度,可以适当丢帧弥补追上音频,如果已经有延迟,减小延迟也可以,反之则减小视频的播放速度。
可选的,可以使用MoviePy工具合成具有特定格式(例如,MKV(Matroska VideoFile)、AVI(Audio Video Interleaved)、MP4(MPEG-4的一个缩写)等格式)的目标视频。其中,MoviePy是一个用于视频编辑的Python模块,可用于进行视频的基本操作(如剪切、拼接、标题插入)、视频合成(也称非线性编辑)、视频处理或创建高级效果。
其中,上述提及的相关性检测模型、文本编码模型、图片编码模型、语音转换模型可以共同构建为一个综合的视频合成模型,因此,业务服务器可以直接调用训练好的视频合成模型,将原始文本转换为目标视频。需要说明的是,相关性检测模型、文本编码模型、图片编码模型以及语音转换模型可以单独进行搭建和训练,或者,也可以联合进行搭建和训练,本申请实施例对此不进行限定。
上述可知,本申请实施例可以快速地获取原始文本中的待处理文本所对应的文本映射图片和文本映射语音,并可以基于获取到的待处理文本、文本映射图片以及文本映射语音,生成相应的目标视频,与单一展示文本或图片的方式相比,本申请实施例通过将文本转换为视频,可以丰富文本的视听展示效果,此外,由于在这个过程中可以智能为文本进行配图和配音,因此还可以提升多媒体数据(例如包含文本、图片、语音的视频)的展示效率。
请参见图4,图4是本申请实施例提供的一种视频合成方法的流程示意图。该视频合成方法可以由计算机设备执行,计算机设备可以包括但不限于运行有视频合成模型的用户终端或业务服务器。为便于理解,本申请实施例以该方法由业务服务器执行为例进行说明。如图4所示,该视频合成方法至少可以包括以下步骤:
步骤S201,在获取到原始文本时,对原始文本进行文本分割,基于分割得到的过渡文本确定待处理文本;
业务服务器对原始文本进行文本分割的具体过程可以参见上述图3所对应实施例中的步骤S101,这里不再进行赘述。
这里仍以第i个过渡文本和第j个过渡文本为例进行说明。业务服务器对第i个过渡文本和第j个过渡文本进行向量转换的过程可以为:业务服务器可以对第i个过渡文本进行分词处理,得到第i个过渡文本的第一文本分词,进而对第一文本分词进行词向量转换,可以得到第一文本分词对应的第一词向量,进一步,获取第i个过渡文本对应的第一语义向量以及第一文本分词在第i个过渡文本中的文本位置相关联的第一位置向量,进而可以将第一词向量、第一语义向量以及第一位置向量进行向量融合,得到第i个过渡文本对应的第一文本转换向量。同理,业务服务器可以对第j个过渡文本进行分词处理,得到第j个过渡文本的第二文本分词,进而对第二文本分词进行词向量转换,可以得到第二文本分词对应的第二词向量,进一步,获取第j个过渡文本对应的第二语义向量以及第二文本分词在第j个过渡文本中的文本位置相关联的第二位置向量,进而可以将第二词向量、第二语义向量以及第二位置向量进行向量融合,得到第j个过渡文本对应的第二文本转换向量。
进一步,可以将第一文本转换向量和第二文本转换向量输入至相关性检测模型,通过该相关性检测模型对第一文本转换向量和第二文本转换向量进行文本相关性检测,可以得到第i个过渡文本与第j个过渡文本之间的文本相关性检测结果,例如,文本相关性检测结果的取值为1时,表示第i个过渡文本与第j个过渡文本之间不具备相关性;文本相关性检测结果的取值为0时,表示第i个过渡文本与第j个过渡文本之间具备相关性。
可选的,本申请实施例可以采用训练好的BERT模型作为相关性检测模型,其中,BERT模型的具体网络结构可以参见后续图5所示的网络结构。
步骤S202,将待处理文本输入至文本编码模型,通过文本编码模型对待处理文本进行文本编码,得到待处理文本的文本语义向量;
具体的,业务服务器可以对待处理文本进行分词处理,得到待处理文本的文本分词,进而可以对文本分词进行词向量转换,得到文本分词对应的词向量。进一步,业务服务器可以获取待处理文本对应的全局语义向量以及文本分词在待处理文本中的文本位置相关联的位置向量,并可以将词向量、全局语义向量以及位置向量进行向量融合,从而得到待处理文本对应的第三文本转换向量。
进一步,可以将第三文本转换向量输入至文本编码模型中的文本编码网络进行文本编码,可选的,本申请实施例可以采用训练好的BERT模型作为文本编码模型(即TextEncoder),请一并参见图5,图5是本申请实施例提供的一种文本编码模型的结构示意图。如图5所示,假设文本编码模型(例如,图5所示的文本编码模型503)中的文本编码网络的数量为M个,M个文本编码网络包括文本编码网络Em和文本编码网络Em+1,文本编码网络Em+1为文本编码网络Em的下一个文本编码网络,m为小于M的正整数,例如,文本编码模型503中的M个文本编码网络具体可以包括文本编码网络1、文本编码网络2、…、文本编码网络M,文本编码网络Em和文本编码网络Em+1可以为文本编码网络1、文本编码网络2、…、文本编码网络M中的任意两个相邻的文本编码网络。可选的,每个文本编码网络的网络结构都相同,且可以采用Transformer中的编码器(即Transformer Encoder)的网络结构,则文本编码的具体过程可以为:业务服务器将第三文本转换向量(例如,图5所示的向量502,向量502是对文本501进行向量转换所得到的)输入至文本编码模型(例如,图5所示的文本编码模型503)中的文本编码网络,并通过文本编码网络Em(例如,图5所示的文本编码网络1)输出历史文本编码向量,随后可以将历史文本编码向量输入至文本编码网络Em+1(例如,图5所示的文本编码网络2)。在文本编码网络Em+1中,可以基于历史文本编码向量和文本编码网络Em+1中的多头自注意力网络,得到第一中间编码向量。进而可以对第一中间编码向量和历史文本编码向量进行残差连接以及归一化处理,得到第二中间编码向量,且可以将第二中间编码向量输入至文本编码网络Em+1中的全连接层,得到第三中间编码向量;进一步,可以对第三中间编码向量和第二中间编码向量进行残差连接以及归一化处理,得到文本编码网络Em+1的目标文本编码向量,最终可以基于目标文本编码向量得到待处理文本的文本语义向量(即TextVector),例如,可以将最后一个文本编码网络(例如,图5所示的文本编码网络M)所输出的文本编码向量(例如,图5所示的向量504)作为待处理文本(例如,文本501)的文本语义向量。
例如,在一种实施方式中,可以使用基于BERT的文本编码模型对长度为L的待处理文本(例如,文本1)进行文本编码,首先可以对该文本1按照字粒度进行向量转换(即Tokenize和嵌入),得到长度为L+2的一维序列(即第三文本转换向量),进而可以通过文本编码模型中的文本编码网络(例如,采用Transformer Encoder)对该一维序列进行文本编码,从而可以得到文本1的表示向量(即文本语义向量)。
步骤S203,将候选图片输入至图片编码模型,通过图片编码模型对候选图片进行图片编码,得到候选图片对应的候选图片向量;
可选的,本申请实施例可以采用训练好的Vision Tranformer模型作为图片编码模型(即ImageEncoder),请一并参见图6,图6是本申请实施例提供的一种图片编码模型的结构示意图。如图6所示,业务服务器可以对某个候选图片进行图像分割,从而得到多个(例如z个)区域图片,例如,z个(例如,9个)区域图片具体可以包括区域图片A1、…、区域图片Ax、…、区域图片Ay、…、区域图片Az,其中,z个区域图片的图片尺寸均相同。进而可以将这z个区域图片输入至图片编码模型中的特征提取网络(例如,如图6所示的特征提取网络601),通过特征提取网络601对这z个区域图片分别进行特征提取,可以得到区域图片A1对应的图片特征1、…、区域图片Ax对应的图片特征x、…、区域图片Ay对应的图片特征y、…、区域图片Az对应的图片特征z,并可以基于图片特征1、…、图片特征x、…、图片特征y、…、以及图片特征z确定图片特征序列602。进一步,可以将图片特征序列602输入至图片编码模型中的图片编码网络(例如,如图6所示的图片编码网络603,具体可以为Transformer中的编码器),通过该图片编码网络603对图片特征序列602进行图片编码,可以得到候选图片向量604(即ImageVector)。
例如,在一种实施方式中,可以将一个候选图片(例如,候选图片w)划分为H×H(例如,3×3)个大小相同的区域,即得到H×H个具有相同图片尺寸的区域图片,进而可以通过图片编码模型中的特征提取网络对每个区域图片进行特征提取,得到H×H的一维序列(即图片特征序列),再通过图片编码模型中的图片编码网络对该图片特征序列进行图片编码,可以得到该候选图片w的表示向量(即候选图片向量)。
步骤S204,在候选图片对应的候选图片向量中查找与文本语义向量具有最小向量距离的候选图片向量,作为与文本语义向量具有相同语义的候选图片向量;
可以理解,业务服务器可以根据文本语义向量在大规模的候选图片对应的候选图片向量中检索出向量距离最近(例如,余弦距离最近)的候选图片向量,并可以将检索到的候选图片向量作为与该文本语义向量具有相同语义的候选图片向量,也就是说,可以找出最符合语义的图片作为视频的配图。其中,可选的,可以采用高效可靠的检索算法(例如,Faiss(Facebook AI Similarity Search)算法)实现上述检索过程,本申请实施例对采用的检索算法不进行限定。
该步骤的具体过程可以参见上述图3所对应实施例中的步骤S102,这里不再进行赘述。
步骤S205,基于查找到的候选图片向量所对应的候选图片确定待处理文本对应的文本映射图片;
该步骤的具体过程可以参见上述图3所对应实施例中的步骤S102,这里不再进行赘述。
步骤S206,基于获取到的与待处理文本相关联的语音转换参数,对待处理文本进行音素转换,得到待处理文本对应的音素序列,并获取音素序列中的音素所对应的音素参数;
该步骤的具体过程可以参见上述图3所对应实施例中的步骤S103,这里不再进行赘述。
步骤S207,基于音素序列和音素参数生成与语音转换参数相符的文本映射语音;
该步骤的具体过程可以参见上述图3所对应实施例中的步骤S103,这里不再进行赘述。
步骤S208,对文本映射图片进行图片预处理,得到具有目标像素的预处理图片;
该步骤的具体过程可以参见上述图3所对应实施例中的步骤S104,这里不再进行赘述。
步骤S209,基于语音转换参数确定文本映射语音的语音属性标签,基于语音属性标签调整预处理图片的图片调性,得到目标图片,且基于语音属性标签调整待处理文本的文本显示样式,得到目标文本;
该步骤的具体过程可以参见上述图3所对应实施例中的步骤S104,这里不再进行赘述。
步骤S210,对文本映射语音进行音频编码,得到用于合成目标视频的音频帧;
该步骤的具体过程可以参见上述图3所对应实施例中的步骤S104,这里不再进行赘述。
步骤S211,基于文本映射语音的语音时长、目标图片以及目标文本,生成与音频帧相关联的视频帧;
该步骤的具体过程可以参见上述图3所对应实施例中的步骤S104,这里不再进行赘述。
步骤S212,基于音频帧的持续时长,对音频帧和视频帧进行对齐处理,得到用于合成目标视频的音视频帧,基于音视频帧生成原始文本对应的目标视频。
该步骤的具体过程可以参见上述图3所对应实施例中的步骤S104,这里不再进行赘述。
上述可知,本申请实施例可以快速地获取原始文本中的待处理文本所对应的文本映射图片和文本映射语音,并可以基于获取到的待处理文本、文本映射图片以及文本映射语音,生成相应的目标视频,与单一展示文本或图片的方式相比,本申请实施例通过将文本转换为视频,可以丰富文本的视听展示效果,此外,由于在这个过程中可以智能为文本进行配图和配音,因此还可以提升多媒体数据(例如包含文本、图片、语音的视频)的展示效率。
请一并参见图7,图7是本申请实施例提供的一种视频合成的场景示意图。其中,该场景可以由计算机设备实现,该计算机设备可以为上述图1所对应实施例中的业务服务器100或者用户终端集群中的任意一个用户终端(例如,用户终端200a)。图7所示的分句模块、图文检索模块、语音合成模块以及视频生成模块可以为基于大规模图文检索的文本转视频系统(对应于上述视频合成模型)中的模块。如图7所示,计算机设备可以获取业务对象输入的原始文本,进而可以将原始文本输入至分句模块701(可包括上述相关性检测模型),该分句模块701可以对原始文本自动进行文本分割,而不需要业务对象手动分割,从而可以快速得到原始文本中的待处理文本。进一步,计算机设备可以将待处理文本输入至图文检索模块702(对应于上述图文检索模型,包括文本编码模型和图片编码模型),该图文检索模块702可以根据待处理文本在候选图片中检索出语义相近的文本映射图片(例如,图片P1、图片P2、…、图片Pn),并将其作为配图,而无需业务对象手动从互联网搜索配图。同时,计算机设备可以将待处理文本输入至语音合成模块703(对应于上述语音转换模型),该语音合成模块703可以自动将待处理文本转换为文本映射语音(例如,语音Q1、语音Q2、…、语音Qn),并将其作为配音,因此可以无需业务对象进行人工配音。此外,计算机设备可以根据文本映射语音的语音时长,设置字幕相关的时间戳(即显示开始时间戳和显示结束时间戳),并将其与待处理文本一起转换为具有特定格式(例如,srt格式、ass格式、smi格式、ssa格式或sub格式等)的字幕,例如,字幕1、字幕2、…、字幕n。最终,计算机设备可以将得到的字幕、配图以及配音输入至视频生成模块704,该视频生成模块704可以基于字幕、配图和配音,自动生成可以播放的视频文件(例如,视频705)。该场景的具体实现过程可以参见上述图3-图4所对应实施例中的描述。
上述可知,本申请实施例可以通过文本转视频系统,将业务对象输入的文本快速转换为包含字幕和配音(甚至配乐)的视频,由于整个过程是全自动化的,且对视频创作者(即业务对象)没有任何技术能力要求,因此可以有效降低视频创作门槛,提升视频制作效率。此外,与单一展示文本或图片的方式相比,本申请实施例通过展示生成的视频,还可以丰富文本的视听展示效果。
请参见图8,是本申请实施例提供的一种视频合成装置的结构示意图。该视频合成装置可以是运行于计算机设备的一个计算机程序(包括程序代码),例如该视频合成装置为一个应用软件;该装置可以用于执行本申请实施例提供的视频合成方法中的相应步骤。如图8所示,该视频合成装置1可以包括:文本获取模块11、图片查找模块12、语音转换模块13、视频生成模块14;
文本获取模块11,用于在获取到原始文本时,获取原始文本中的待处理文本;待处理文本的文本长度小于原始文本的文本长度;
其中,该文本获取模块11可以包括:第一分割单元111、文本分类单元112、第二分割单元113、相关检测单元114;
第一分割单元111,用于在获取到原始文本时,对原始文本中的第一类分割符号进行识别,基于识别到的第一类分割符号对原始文本进行文本分割,将分割得到的原始文本的过渡文本作为第一过渡文本;第一过渡文本的文本长度小于原始文本的文本长度;
文本分类单元112,用于在第一过渡文本中,将文本长度大于长度阈值的过渡文本作为待检测文本,并将文本长度小于或者等于长度阈值的过渡文本作为第一待处理文本;
第二分割单元113,用于对待检测文本中的第二类分割符号进行识别,基于识别到的第二类分割符号对待检测文本进行文本分割,将分割得到的待检测文本的过渡文本作为第二过渡文本,从第二过渡文本的任意两个相邻过渡文本中获取第i个过渡文本和第j个过渡文本;j=i+1;i为小于K的正整数,K为分割得到的待检测文本的过渡文本的文本数量;
相关检测单元114,用于对第i个过渡文本和第j个过渡文本进行文本相关性检测,得到第i个过渡文本和第j个过渡文本之间的文本相关性检测结果,基于文本相关性检测结果得到第二待处理文本,将第一待处理文本和第二待处理文本作为原始文本的待处理文本;
其中,该相关检测单元114可以包括:第一转换子单元1141、模型检测子单元1142、第一确定子单元1143、第二确定子单元1144;
第一转换子单元1141,用于对第i个过渡文本进行向量转换,得到第i个过渡文本对应的第一文本转换向量,且对第j个过渡文本进行向量转换,得到第j个过渡文本对应的第二文本转换向量;
模型检测子单元1142,用于将第一文本转换向量和第二文本转换向量输入至相关性检测模型,通过相关性检测模型对第一文本转换向量和第二文本转换向量进行文本相关性检测,得到第i个过渡文本与第j个过渡文本之间的文本相关性检测结果;
第一确定子单元1143,用于若文本相关性检测结果指示第i个过渡文本与第j个过渡文本之间具备相关性,则将由第i个过渡文本和第j个过渡文本所合成的合成文本作为第二待处理文本;
第二确定子单元1144,用于若文本相关性检测结果指示第i个过渡文本与第j个过渡文本之间不具备相关性,则将第i个过渡文本和第j个过渡文本均作为第二待处理文本。
其中,第一转换子单元1141、模型检测子单元1142、第一确定子单元1143、第二确定子单元1144的具体实现方式可以参见上述图3所对应实施例中对步骤S101的描述,或者,可以参见上述图4所对应实施例中对步骤S201的描述,这里不再进行赘述。
其中,第一分割单元111、文本分类单元112、第二分割单元113、相关检测单元114的具体实现方式可以参见上述图3所对应实施例中对步骤S101的描述,或者,可以参见上述图4所对应实施例中对步骤S201的描述,这里不再进行赘述。
图片查找模块12,用于获取待处理文本的文本语义向量,在候选图片对应的候选图片向量中查找与文本语义向量具有相同语义的候选图片向量,基于查找到的候选图片向量所对应的候选图片确定待处理文本对应的文本映射图片;
其中,该图片查找模块12可以包括:文本编码单元121、图片编码单元122、向量查找单元123、图片确定单元124;
文本编码单元121,用于将待处理文本输入至文本编码模型,通过文本编码模型对待处理文本进行文本编码,得到待处理文本的文本语义向量;
其中,该文本编码单元121可以包括:第二转换子单元1211、文本编码子单元1212;
第二转换子单元1211,用于对待处理文本进行向量转换,得到待处理文本对应的第三文本转换向量;
该第二转换子单元1211具体用于对待处理文本进行分词处理,得到待处理文本的文本分词,对文本分词进行词向量转换,得到文本分词对应的词向量;获取待处理文本对应的全局语义向量以及文本分词在待处理文本中的文本位置相关联的位置向量,将词向量、全局语义向量以及位置向量进行向量融合,得到待处理文本对应的第三文本转换向量;
文本编码子单元1212,用于将第三文本转换向量输入至文本编码模型中的文本编码网络,通过文本编码网络对第三文本转换向量进行文本编码,得到待处理文本的文本语义向量;
其中,文本编码模型中的文本编码网络的数量为M个,M个文本编码网络包括文本编码网络Em和文本编码网络Em+1,文本编码网络Em+1为文本编码网络Em的下一个文本编码网络,m为小于M的正整数;
该文本编码子单元1212具体用于将第三文本转换向量输入至文本编码模型中的文本编码网络,通过文本编码网络Em输出历史文本编码向量,将历史文本编码向量输入至文本编码网络Em+1;在文本编码网络Em+1中,基于历史文本编码向量和文本编码网络Em+1中的多头自注意力网络,得到第一中间编码向量;且对第一中间编码向量和历史文本编码向量进行残差连接以及归一化处理,得到第二中间编码向量,将第二中间编码向量输入至文本编码网络Em+1中的全连接层,得到第三中间编码向量;对第三中间编码向量和第二中间编码向量进行残差连接以及归一化处理,得到文本编码网络Em+1的目标文本编码向量;基于目标文本编码向量得到待处理文本的文本语义向量。
其中,第二转换子单元1211、文本编码子单元1212的具体实现方式可以参见上述图3所对应实施例中对步骤S102的描述,或者,可以参见上述图4所对应实施例中对步骤S202的描述,这里不再进行赘述。
图片编码单元122,用于将候选图片输入至图片编码模型,通过图片编码模型对候选图片进行图片编码,得到候选图片对应的候选图片向量;
其中,该图片编码单元122可以包括:图像分割子单元1221、特征提取子单元1222、图片编码子单元1223;
图像分割子单元1221,用于对候选图片进行图像分割,将分割得到的图片作为区域图片;
特征提取子单元1222,用于将区域图片输入至图片编码模型中的特征提取网络,通过特征提取网络对区域图片进行特征提取,得到区域图片对应的图片特征,基于区域图片对应的图片特征得到图片特征序列;
图片编码子单元1223,用于将图片特征序列输入至图片编码模型中的图片编码网络,通过图片编码网络对图片特征序列进行图片编码,得到候选图片对应的候选图片向量。
其中,图像分割子单元1221、特征提取子单元1222、图片编码子单元1223的具体实现方式可以参见上述图3所对应实施例中对步骤S102的描述,或者,可以参见上述图4所对应实施例中对步骤S203的描述,这里不再进行赘述。
向量查找单元123,用于在候选图片对应的候选图片向量中查找与文本语义向量具有最小向量距离的候选图片向量,作为与文本语义向量具有相同语义的候选图片向量;
图片确定单元124,用于基于查找到的候选图片向量所对应的候选图片确定待处理文本对应的文本映射图片;
其中,若查找到的候选图片向量的向量个数为N个,则查找到的候选图片向量所对应的候选图片的图片个数为N个;N为大于1的正整数;
该图片确定单元124可以包括:参数配置子单元1241、图片合成子单元1242;
参数配置子单元1241,用于获取查找到的N个候选图片,为N个候选图片配置图片排列顺序和图片切换频率;
图片合成子单元1242,用于基于配置的图片排列顺序和图片切换频率,对N个候选图片进行图片合成,将合成得到的合成图作为待处理文本对应的文本映射图片。
其中,参数配置子单元1241、图片合成子单元1242的具体实现方式可以参见上述图3所对应实施例中对步骤S102的描述,这里不再进行赘述。
其中,文本编码单元121、图片编码单元122、向量查找单元123、图片确定单元124的具体实现方式可以参见上述图3所对应实施例中对步骤S102的描述,或者,可以参见上述图4所对应实施例中对步骤S202-步骤S205的描述,这里不再进行赘述。
语音转换模块13,用于在获取到与待处理文本相关联的语音转换参数时,将待处理文本转换为与语音转换参数相符的文本映射语音;
其中,语音转换参数是由与原始文本相关联的业务对象通过触发声纹列表中的声纹所得到的;声纹列表是由业务对象通过触发声纹选择控件所输出的,或声纹列表是由在待处理文本中所识别到的携带用于表征业务对象的业务对象属性的关键词时输出的;
该语音转换模块13可以包括:音素转换单元131、语音生成单元132;
音素转换单元131,用于在获取到与待处理文本相关联的语音转换参数时,基于语音转换参数对待处理文本进行音素转换,得到待处理文本对应的音素序列,并获取音素序列中的音素所对应的音素参数;音素参数是由语音转换参数所确定的;
语音生成单元132,用于基于音素序列和音素参数生成与语音转换参数相符的文本映射语音。
其中,音素转换单元131、语音生成单元132的具体实现方式可以参见上述图3所对应实施例中对步骤S103的描述,这里不再进行赘述。
视频生成模块14,用于基于待处理文本、文本映射图片和文本映射语音,生成用于合成目标视频的音频帧和视频帧,将生成的音频帧和视频帧进行视频合成处理,得到原始文本对应的目标视频;
其中,该视频生成模块14可以包括:预处理单元141、调整单元142、音频帧生成单元143、视频帧生成单元144、音视频对齐单元145、视频生成单元146;
预处理单元141,用于对文本映射图片进行图片预处理,得到具有目标像素的预处理图片;
调整单元142,用于基于语音转换参数,确定文本映射语音的语音属性标签,基于语音属性标签调整预处理图片的图片调性,将调整图片调性后的预处理图片作为目标图片,且基于语音属性标签调整待处理文本的文本显示样式,将调整文本显示样式后的待处理文本作为目标文本;
音频帧生成单元143,用于对文本映射语音进行音频编码,得到用于合成目标视频的音频帧;
视频帧生成单元144,用于基于文本映射语音的语音时长、目标图片以及目标文本,生成与音频帧相关联的视频帧;
其中,该视频帧生成单元144可以包括:第一时间确定子单元1441、第二时间确定子单元1442、图文对齐子单元1443;
第一时间确定子单元1441,用于基于文本映射语音的语音时长和第一时间间隔,确定目标文本的显示开始时间戳,且基于语音时长和第二时间间隔,确定目标文本的显示结束时间戳,将显示开始时间戳与显示结束时间戳之间的时长作为目标文本的文本显示时长;
第二时间确定子单元1442,用于基于显示开始时间戳和第三时间间隔,确定目标图片的播放开始时间戳,且基于显示结束时间戳和第四时间间隔,确定目标图片的播放结束时间戳,将播放开始时间戳与播放结束时间戳之间的时长作为目标图片的图片播放时长;
图文对齐子单元1443,用于将具有文本显示时长的目标文本和具有图片播放时长的目标图片进行对齐处理,基于对齐处理后的目标文本和目标图片生成与音频帧相关联的视频帧。
其中,第一时间确定子单元1441、第二时间确定子单元1442、图文对齐子单元1443的具体实现方式可以参见上述图3所对应实施例中对步骤S104的描述,这里不再进行赘述。
音视频对齐单元145,用于基于音频帧的持续时长,对音频帧和视频帧进行对齐处理,得到用于合成目标视频的音视频帧;
视频生成单元146,用于基于音视频帧生成原始文本对应的目标视频。
其中,预处理单元141、调整单元142、音频帧生成单元143、视频帧生成单元144、音视频对齐单元145、视频生成单元146的具体实现方式可以参见上述图3所对应实施例中对步骤S104的描述,这里不再进行赘述。
其中,文本获取模块11、图片查找模块12、语音转换模块13、视频生成模块14的具体实现方式可以参见上述图3所对应实施例中对步骤S101-步骤S104的描述,或者,可以参见上述图4所对应实施例中对步骤S201-步骤S212的描述,这里不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
请参见图9,是本申请实施例提供的一种计算机设备的结构示意图。如图9所示,该计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图9所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在如图9所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以执行前文图3、图4任一个所对应实施例中对该视频合成方法的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有前文提及的视频合成装置1所执行的计算机程序,且计算机程序包括程序指令,当处理器执行程序指令时,能够执行前文图3、图4任一个所对应实施例中对视频合成方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
上述计算机可读存储介质可以是前述任一实施例提供的视频合成装置或者上述计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
此外,这里需要指出的是:本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前文图3、图4任一个所对应实施例提供的方法。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节,请参照本申请方法实施例的描述。
本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (17)

1.一种视频合成方法,其特征在于,包括:
在获取到原始文本时,获取所述原始文本中的待处理文本;所述待处理文本的文本长度小于所述原始文本的文本长度;
获取所述待处理文本的文本语义向量,在候选图片对应的候选图片向量中查找与所述文本语义向量具有相同语义的候选图片向量,基于查找到的候选图片向量所对应的候选图片确定所述待处理文本对应的文本映射图片;
在获取到与所述待处理文本相关联的语音转换参数时,将所述待处理文本转换为与所述语音转换参数相符的文本映射语音;
基于所述待处理文本、所述文本映射图片和所述文本映射语音,生成用于合成目标视频的音频帧和视频帧,将生成的音频帧和视频帧进行视频合成处理,得到所述原始文本对应的所述目标视频。
2.根据权利要求1所述的方法,其特征在于,所述在获取到原始文本时,获取所述原始文本中的待处理文本,包括:
在获取到原始文本时,对所述原始文本中的第一类分割符号进行识别,基于识别到的第一类分割符号对所述原始文本进行文本分割,将分割得到的所述原始文本的过渡文本作为第一过渡文本;所述第一过渡文本的文本长度小于所述原始文本的文本长度;
在所述第一过渡文本中,将文本长度大于长度阈值的过渡文本作为待检测文本,并将文本长度小于或者等于所述长度阈值的过渡文本作为第一待处理文本;
对所述待检测文本中的第二类分割符号进行识别,基于识别到的第二类分割符号对所述待检测文本进行文本分割,将分割得到的所述待检测文本的过渡文本作为第二过渡文本,从所述第二过渡文本的任意两个相邻过渡文本中获取第i个过渡文本和第j个过渡文本;j=i+1;i为小于K的正整数,K为分割得到的所述待检测文本的过渡文本的文本数量;
对所述第i个过渡文本和所述第j个过渡文本进行文本相关性检测,得到所述第i个过渡文本和所述第j个过渡文本之间的文本相关性检测结果,基于所述文本相关性检测结果得到第二待处理文本,将所述第一待处理文本和所述第二待处理文本作为所述原始文本的待处理文本。
3.根据权利要求2所述的方法,其特征在于,所述对所述第i个过渡文本和所述第j个过渡文本进行文本相关性检测,得到所述第i个过渡文本和所述第j个过渡文本之间的文本相关性检测结果,基于所述文本相关性检测结果得到第二待处理文本,包括:
对所述第i个过渡文本进行向量转换,得到所述第i个过渡文本对应的第一文本转换向量,且对所述第j个过渡文本进行向量转换,得到所述第j个过渡文本对应的第二文本转换向量;
将所述第一文本转换向量和所述第二文本转换向量输入至相关性检测模型,通过所述相关性检测模型对所述第一文本转换向量和所述第二文本转换向量进行文本相关性检测,得到所述第i个过渡文本与所述第j个过渡文本之间的文本相关性检测结果;
若所述文本相关性检测结果指示所述第i个过渡文本与所述第j个过渡文本之间具备相关性,则将由所述第i个过渡文本和所述第j个过渡文本所合成的合成文本作为第二待处理文本;
若所述文本相关性检测结果指示所述第i个过渡文本与所述第j个过渡文本之间不具备相关性,则将所述第i个过渡文本和所述第j个过渡文本均作为第二待处理文本。
4.根据权利要求1所述的方法,其特征在于,所述获取所述待处理文本的文本语义向量,在候选图片对应的候选图片向量中查找与所述文本语义向量具有相同语义的候选图片向量,基于查找到的候选图片向量所对应的候选图片确定所述待处理文本对应的文本映射图片,包括:
将所述待处理文本输入至文本编码模型,通过所述文本编码模型对所述待处理文本进行文本编码,得到所述待处理文本的文本语义向量;
将候选图片输入至图片编码模型,通过所述图片编码模型对所述候选图片进行图片编码,得到所述候选图片对应的候选图片向量;
在所述候选图片对应的候选图片向量中查找与所述文本语义向量具有最小向量距离的候选图片向量,作为与所述文本语义向量具有相同语义的候选图片向量;
基于查找到的候选图片向量所对应的候选图片确定所述待处理文本对应的文本映射图片。
5.根据权利要求4所述的方法,其特征在于,所述将所述待处理文本输入至文本编码模型,通过所述文本编码模型对所述待处理文本进行文本编码,得到所述待处理文本的文本语义向量,包括:
对所述待处理文本进行向量转换,得到所述待处理文本对应的第三文本转换向量;
将所述第三文本转换向量输入至文本编码模型中的文本编码网络,通过所述文本编码网络对所述第三文本转换向量进行文本编码,得到所述待处理文本的文本语义向量。
6.根据权利要求5所述的方法,其特征在于,所述对所述待处理文本进行向量转换,得到所述待处理文本对应的第三文本转换向量,包括:
对所述待处理文本进行分词处理,得到所述待处理文本的文本分词,对所述文本分词进行词向量转换,得到所述文本分词对应的词向量;
获取所述待处理文本对应的全局语义向量以及所述文本分词在所述待处理文本中的文本位置相关联的位置向量,将所述词向量、所述全局语义向量以及所述位置向量进行向量融合,得到所述待处理文本对应的第三文本转换向量。
7.根据权利要求5所述的方法,其特征在于,所述文本编码模型中的文本编码网络的数量为M个,M个文本编码网络包括文本编码网络Em和文本编码网络Em+1,所述文本编码网络Em+1为所述文本编码网络Em的下一个文本编码网络,m为小于M的正整数;
所述将所述第三文本转换向量输入至文本编码模型中的文本编码网络,通过所述文本编码网络对所述第三文本转换向量进行文本编码,得到所述待处理文本的文本语义向量,包括:
将所述第三文本转换向量输入至文本编码模型中的文本编码网络,通过所述文本编码网络Em输出历史文本编码向量,将所述历史文本编码向量输入至所述文本编码网络Em+1
在所述文本编码网络Em+1中,基于所述历史文本编码向量和所述文本编码网络Em+1中的多头自注意力网络,得到第一中间编码向量;
对所述第一中间编码向量和所述历史文本编码向量进行残差连接以及归一化处理,得到第二中间编码向量,将所述第二中间编码向量输入至所述文本编码网络Em+1中的全连接层,得到第三中间编码向量;
对所述第三中间编码向量和所述第二中间编码向量进行残差连接以及归一化处理,得到所述文本编码网络Em+1的目标文本编码向量;
基于所述目标文本编码向量得到所述待处理文本的文本语义向量。
8.根据权利要求4所述的方法,其特征在于,所述将候选图片输入至图片编码模型,通过所述图片编码模型对所述候选图片进行图片编码,得到所述候选图片对应的候选图片向量,包括:
对所述候选图片进行图像分割,将分割得到的图片作为区域图片;
将所述区域图片输入至图片编码模型中的特征提取网络,通过所述特征提取网络对所述区域图片进行特征提取,得到所述区域图片对应的图片特征,基于所述区域图片对应的图片特征得到图片特征序列;
将所述图片特征序列输入至所述图片编码模型中的图片编码网络,通过所述图片编码网络对所述图片特征序列进行图片编码,得到所述候选图片对应的候选图片向量。
9.根据权利要求4所述的方法,其特征在于,若查找到的候选图片向量的向量个数为N个,则查找到的候选图片向量所对应的候选图片的图片个数为N个;N为大于1的正整数;
所述基于查找到的候选图片向量所对应的候选图片确定所述待处理文本对应的文本映射图片,包括:
获取查找到的N个候选图片,为所述N个候选图片配置图片排列顺序和图片切换频率;
基于配置的图片排列顺序和图片切换频率,对所述N个候选图片进行图片合成,将合成得到的合成图作为所述待处理文本对应的文本映射图片。
10.根据权利要求1所述的方法,其特征在于,所述语音转换参数是由与所述原始文本相关联的业务对象通过触发声纹列表中的声纹所得到的;所述声纹列表是由所述业务对象通过触发声纹选择控件所输出的,或所述声纹列表是由在所述待处理文本中所识别到的携带用于表征所述业务对象的业务对象属性的关键词时输出的;
所述在获取到与所述待处理文本相关联的语音转换参数时,将所述待处理文本转换为与所述语音转换参数相符的文本映射语音,包括:
在获取到与所述待处理文本相关联的语音转换参数时,基于所述语音转换参数对所述待处理文本进行音素转换,得到所述待处理文本对应的音素序列,并获取所述音素序列中的音素所对应的音素参数;所述音素参数是由所述语音转换参数所确定的;
基于所述音素序列和所述音素参数生成与所述语音转换参数相符的文本映射语音。
11.根据权利要求1所述的方法,其特征在于,所述基于所述待处理文本、所述文本映射图片和所述文本映射语音,生成用于合成目标视频的音频帧和视频帧,包括:
对所述文本映射图片进行图片预处理,得到具有目标像素的预处理图片;
基于所述语音转换参数,确定所述文本映射语音的语音属性标签,基于所述语音属性标签调整所述预处理图片的图片调性,将调整图片调性后的预处理图片作为目标图片,且基于所述语音属性标签调整所述待处理文本的文本显示样式,将调整文本显示样式后的待处理文本作为目标文本;
对所述文本映射语音进行音频编码,得到用于合成目标视频的音频帧;
基于所述文本映射语音的语音时长、所述目标图片以及所述目标文本,生成与所述音频帧相关联的视频帧。
12.根据权利要求11所述的方法,其特征在于,所述基于所述文本映射语音的语音时长、所述目标图片以及所述目标文本,生成与所述音频帧相关联的视频帧,包括:
基于所述文本映射语音的语音时长和第一时间间隔,确定所述目标文本的显示开始时间戳,且基于所述语音时长和第二时间间隔,确定所述目标文本的显示结束时间戳,将所述显示开始时间戳与所述显示结束时间戳之间的时长作为所述目标文本的文本显示时长;
基于所述显示开始时间戳和第三时间间隔,确定所述目标图片的播放开始时间戳,且基于所述显示结束时间戳和第四时间间隔,确定所述目标图片的播放结束时间戳,将所述播放开始时间戳与所述播放结束时间戳之间的时长作为所述目标图片的图片播放时长;
将具有所述文本显示时长的所述目标文本和具有所述图片播放时长的所述目标图片进行对齐处理,基于对齐处理后的目标文本和目标图片生成与所述音频帧相关联的视频帧。
13.根据权利要求11所述的方法,其特征在于,所述将生成的音频帧和视频帧进行视频合成处理,得到所述原始文本对应的所述目标视频,包括:
基于所述音频帧的持续时长,对所述音频帧和所述视频帧进行对齐处理,得到用于合成所述目标视频的音视频帧;
基于所述音视频帧生成所述原始文本对应的所述目标视频。
14.一种视频合成装置,其特征在于,包括:
文本获取模块,用于在获取到原始文本时,获取所述原始文本中的待处理文本;所述待处理文本的文本长度小于所述原始文本的文本长度;
图片查找模块,用于获取所述待处理文本的文本语义向量,在候选图片对应的候选图片向量中查找与所述文本语义向量具有相同语义的候选图片向量,基于查找到的候选图片向量所对应的候选图片确定所述待处理文本对应的文本映射图片;
语音转换模块,用于在获取到与所述待处理文本相关联的语音转换参数时,将所述待处理文本转换为与所述语音转换参数相符的文本映射语音;
视频生成模块,用于基于所述待处理文本、所述文本映射图片和所述文本映射语音,生成用于合成目标视频的音频帧和视频帧,将生成的音频帧和视频帧进行视频合成处理,得到所述原始文本对应的所述目标视频。
15.一种计算机设备,其特征在于,包括:处理器和存储器;
所述处理器与所述存储器相连,其中,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以使所述计算机设备执行权利要求1-13任一项所述的方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,该计算机程序适于由处理器加载并执行,以使具有所述处理器的计算机设备执行权利要求1-13任一项所述的方法。
17.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中,该计算机指令适于由处理器读取并执行,以使具有所述处理器的计算机设备执行权利要求1-13任一项所述的方法。
CN202111634313.9A 2021-12-29 2021-12-29 一种视频合成方法、装置以及可读存储介质 Pending CN116419005A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111634313.9A CN116419005A (zh) 2021-12-29 2021-12-29 一种视频合成方法、装置以及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111634313.9A CN116419005A (zh) 2021-12-29 2021-12-29 一种视频合成方法、装置以及可读存储介质

Publications (1)

Publication Number Publication Date
CN116419005A true CN116419005A (zh) 2023-07-11

Family

ID=87048002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111634313.9A Pending CN116419005A (zh) 2021-12-29 2021-12-29 一种视频合成方法、装置以及可读存储介质

Country Status (1)

Country Link
CN (1) CN116419005A (zh)

Similar Documents

Publication Publication Date Title
CN111581437A (zh) 一种视频检索方法及装置
US7120626B2 (en) Content retrieval based on semantic association
Prabhakaran Multimedia database management systems
CN111026861B (zh) 文本摘要的生成方法、训练方法、装置、设备及介质
CN111968649A (zh) 一种字幕纠正方法、字幕显示方法、装置、设备及介质
WO2012086356A1 (ja) ファイルフォーマット、サーバ、電子コミックのビューワ装置および電子コミック生成装置
CN114401438A (zh) 虚拟数字人的视频生成方法及装置、存储介质、终端
CN114390218B (zh) 视频生成方法、装置、计算机设备和存储介质
CN114827752B (zh) 视频生成方法、视频生成系统、电子设备及存储介质
CN113642536B (zh) 数据处理方法、计算机设备以及可读存储介质
CN113392265A (zh) 多媒体处理方法、装置及设备
KR20150102148A (ko) 3d 아바타를 활용한 웹 콘텐츠 기반의 수화통역 시스템 및 방법
CN116312463A (zh) 语音合成方法、语音合成装置、电子设备及存储介质
CN116682411A (zh) 语音合成方法、语音合成系统、电子设备及存储介质
US20230326369A1 (en) Method and apparatus for generating sign language video, computer device, and storage medium
CN117292022A (zh) 基于虚拟对象的视频生成方法、装置及电子设备
CN116977992A (zh) 文本信息识别方法、装置、计算机设备和存储介质
CN116977903A (zh) 一种通过文本智能生成短视频的aigc方法
KR102541008B1 (ko) 화면해설 컨텐츠를 제작하는 방법 및 장치
CN116631434A (zh) 基于转换系统的视频语音同步方法、装置、电子设备
CN116419005A (zh) 一种视频合成方法、装置以及可读存储介质
CN115273856A (zh) 语音识别方法、装置、电子设备及存储介质
CN114911973A (zh) 动作生成方法、装置、电子设备及存储介质
CN114359446A (zh) 一种动画绘本生成方法、装置、设备和存储介质
CN116744055A (zh) 视频生成方法、视频生成装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40089538

Country of ref document: HK