CN117082293A - 一种基于文字创意的视频自动生成方法和装置 - Google Patents

一种基于文字创意的视频自动生成方法和装置 Download PDF

Info

Publication number
CN117082293A
CN117082293A CN202311334165.8A CN202311334165A CN117082293A CN 117082293 A CN117082293 A CN 117082293A CN 202311334165 A CN202311334165 A CN 202311334165A CN 117082293 A CN117082293 A CN 117082293A
Authority
CN
China
Prior art keywords
text
mouth
cast
document
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311334165.8A
Other languages
English (en)
Other versions
CN117082293B (zh
Inventor
唐学怡
余军
袁渊
唐尚海
董精松
刘盾
刘婷婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Chinamcloud Technology Co ltd
Original Assignee
Chengdu Chinamcloud Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Chinamcloud Technology Co ltd filed Critical Chengdu Chinamcloud Technology Co ltd
Priority to CN202311334165.8A priority Critical patent/CN117082293B/zh
Publication of CN117082293A publication Critical patent/CN117082293A/zh
Application granted granted Critical
Publication of CN117082293B publication Critical patent/CN117082293B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44012Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving rendering scenes according to scene graphs, e.g. MPEG-4 scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47205End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for manipulating displayed content, e.g. interacting with MPEG-4 objects, editing locally
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8126Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
    • H04N21/8133Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts specifically related to the content, e.g. biography of the actors in a movie, detailed information about an article seen in a video program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/835Generation of protective data, e.g. certificates
    • H04N21/8352Generation of protective data, e.g. certificates involving content or source identification data, e.g. Unique Material Identifier [UMID]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于文字创意的视频自动生成方法和装置,属于视频制作领域。所述视频生成方法,包括:根据用户输入的创意描述生成口播文案;基于所述口播文案确定场景分割模式,并按照确定的场景分割模式对所述口播文案进行分割,生成多个文案片段;确定所述文案片段对应的视频片段;将所述视频片段组装成最终的视频。本发明节省了时间和成本。

Description

一种基于文字创意的视频自动生成方法和装置
技术领域
本发明属于视频制作领域,特别是涉及一种基于文字创意的视频自动生成方法和装置。
背景技术
当前对于文字生成视频相关技术主要是在于以下三个方面:
(1)通过一定的规则来将输入的文字和图片转化成视频。例如,公开号为CN115988149A的专利申请“一种AI智能图文生成视频的方法”,这类发明虽然提高了现有图文生成视频方法的实用性和便捷性,但是只能基于选择好的图片和文字做自动时间线效果的组装,无法解决基于已有资源库的海量视频以及文字来生成视频,实用度有限。
(2)基于文字直接生成视频。例如,公开号为 CN113934890A的专利申请“一种自动文字生成场景视频的方法及系统”,这类发明基于自然语言预训练模型和计算机视觉技术,通过给定的语言输入自动生成短视频,但直接由文生图,再把图片做视频化的效果,存在生成的视频内容的真实性以及效果单一的问题。
(3)基于文字驱动生成人物播报的视频发明。例如,公开号为 CN114040126A的专利申请“一种文字驱动的人物播报视频生成方法及装置”,这类发明主要是解决的人物播报的视频生成的单一场景,无法适配普适的短视频生成场景。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于文字创意的视频自动生成方法和装置。
本发明的目的是通过以下技术方案来实现的:
一种基于文字创意的视频自动生成方法,包括:
根据用户输入的创意描述生成口播文案;
基于所述口播文案确定场景分割模式,并按照确定的场景分割模式对所述口播文案进行分割,生成多个文案片段;
确定所述文案片段对应的视频片段;
将所述视频片段组装成最终的视频。
进一步地,基于所述口播文案确定场景分割模式,并按照确定的场景分割模式对所述口播文案进行分割,生成多个文案片段,包括:
检测口播文案的文案信息,所述文案信息包括段落数和字符数;
若文案信息满足第一预设条件,则根据口播文案的段落数量将口播文案分割为若干个文案片段;
若文案信息满足第二预设条件,则根据口播文案的语句数量将口播文案分割为若干个文案片段;
若文案信息满足第三预设条件,则检测口播文案的类型,若口播文案属于第一预设类型,则根据口播文案的关键词将口播文案分割为若干个文案片段,否则根据口播文案中的标点符号将口播文案分割为若干个文案片段。
进一步地,第一预设条件为:口播文案的段落数大于第一阈值;或者,口播文案的段落数大于第二阈值、小于等于第一阈值,同时口播文案的字符数大于第三阈值;
第二预设条件为:口播文案的段落数大于第二阈值、小于等于第一阈值,同时口播文案的字符数大于第四阈值、小于等于第三阈值;或者,口播文案的段落数小于等于第二阈值,同时口播文案的字符数大于第三阈值;
第三预设条件为:口播文案的段落数大于第二阈值、小于等于第一阈值,同时口播文案的字符数小于等于第四阈值;或者,口播文案的段落数小于等于第二阈值,同时口播文案的字符数小于第三阈值;
第一预设类型包括娱乐类型和短视频类型。
进一步地,根据口播文案的段落数量将口播文案分割为若干个文案片段,包括:将口播文案中的每个段落分割为一个文案片段;
根据口播文案的语句数量将口播文案分割为若干个文案片段,包括:将口播文案中的每个语句分割为一个文案片段;
根据口播文案中的标点符号将口播文案分割为若干个文案片段,包括:将口播文案中两个标点符号之间的文字分割为一个文案片段,若分割得到的一个文案片段的字数少于预设值,则将该文案片段与相邻的一个文案片段合并;
根据口播文案的关键词将口播文案分割为若干个文案片段,包括:将口播文案分割成句子,对每个句子进行关键词提取,每个关键词作为一个文案片段;当相邻的两个关键词中间没有标点符号时,将这两个关键词构成一个文案片段。
进一步地,确定所述文案片段对应的视频片段,包括:
确定所述文案片段的关键词;
基于所述关键词在预设的素材库中进行检索,得到检索结果;
在检索结果中包括素材时,将检索结果中的一个素材确定为所述文案片段对应的视频片段;
在检索结果中不包括素材时,基于所述关键词,利用AI作画生成图片素材,并为所述图片素材设置动画效果,得到所述文案片段对应的视频片段。
进一步地,基于所述关键词在预设的素材库中进行检索,得到检索结果,包括:
将每个文案片段对应的所有关键词作为一个关键词组;
对关键词组中的关键词进行词性以及词频率分析,按照词频先后进行排序,同词频下按名词、动词、形容词、副词的顺序进行排序;
将关键词组中所有关键词同时作为检索词在素材库中进行检索,若匹配到素材,则将匹配到的素材作为检索结果;若未匹配到素材,则将关键词组中词频超过一的关键词同时作为检索词在素材库中进行检索,若匹配到素材,则将匹配到的素材作为检索结果;若未匹配到素材,将关键词组的所有名词同时作为检索词在素材库中进行检索,若匹配到素材,则将匹配到的素材作为检索结果;若未匹配到素材,则将关键词中排名第一的关键词作为检索词在素材库中进行检索,若匹配到素材,则将匹配到的素材作为检索结果;若未匹配到素材,则将关键词中排名第二的关键词作为检索词在素材库中进行检索,以此类推,直到匹配到素材或者关键词组中每个关键词均作为检索词进行一次检索。
进一步地,将检索结果中的一个视频片段确定为所述文案对应的视频片段,包括:
当检索结果中只包括一个素材时,将该素材确定所述文案片段对应的视频片段;
当检索结果中包括两个及以上素材时,基于所述素材对应的元数据信息,按预设规则对所述素材进行打分,将得分最高的一个素材确定所述文案片段对应的视频片段。
进一步地,基于所述素材对应的元数据信息,按预设规则对所述素材进行打分,包括:
根据关键词是否直接命中以及命中次数确定第一分值;
根据关键词与素材的元数据内容的匹配结果确定第二分值;
根据文案片段的时长与素材的时长的匹配度确定第三分值;
根据素材的入库时间确定第四分值;
根据素材的历史选用频率确定第五分值;
根据素材的格式确定第六分值;
根据素材在同一预设时间段内被同一用户用相同关键词命中的次数确定第七分钟;
根据预设权重对第一分值至第七分值进行加权求和,得到最终的打分结果。
进一步地,将所述视频片段组装成最终的视频,包括:
将所述视频片段及文案片段组装成时间线;
根据预选的视频包装模板将音视频特技、图文字幕效果以及背景配音组装进时间线;
将所述时间线渲染为最终的视频。
一种基于文字创意的视频自动生成装置,包括:
文案生成模块,用于根据用户输入的创意描述生成口播文案;
场景分割模块,用于基于所述口播文案确定场景分割模式,并按照确定的场景分割模式对所述口播文案进行分割,生成多个文案片段;
素材生成模块,用于确定所述文案片段对应的视频片段;
视频组装模块,用于将所述视频片段组装成最终的视频。
本发明的有益效果是:
(1)本发明基于创意和想法来自动生成文案,解决了视频编辑的口播稿来源问题,提升了编辑人员的工作效率,同时也为视频创作提供了更多的灵感来源;
(2)本发明提出了基于多模态信息的综合检索打分机制,该机制提升了素材检索结果与文案的匹配性和相关性,提高了整体工作效率,同时基于已有资源库的海量视频以及图片来生成视频,解决了素材来源问题的同时还提升内容多样性;
(3)本发明在资源库中挑选不到与文案合适的素材时采用AI智能作画的方法,基于不同的语义场景生成图片,相较于以往需要花费大量时间寻找合适素材或者委托专业人员拍摄制作,本发明能够节省时间和成本。
附图说明
图1为本发明中视频生成方法的一种实施例的流程图;
图2为本发明中视频生成装置的一种实施例的组成框图。
具体实施方式
下面将结合实施例,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有付出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1至图2,本发明提供一种基于文字创意的视频自动生成方法和装置:
本实施例的第一方面提供了一种视频生成方法,如图1所示,所述视频生成方法包括步骤S100至步骤S400。
步骤S100.根据用户输入的创意描述生成口播文案。
在一些实施例中,根据用户输入的创意描述生成口播文案,包括:根据用户输入的创意描述,利用大语言模型生成口播文案。
例如,用户输入的创意描述为“以成都市区旅游为主题,生成一段100字左右的口播文案,风格上需活泼、有趣”。一般的,基于大语言模型来基于创意描述生成相应的口播文案,从而可以实现口播文案的自动快速生成,提升了工作人员的效率。在一些实施例中,可以通过人工等方式对大语言模型生成的口播文案进行微调,得到最终的口播文案,进一步提升了口播文案的质量。
步骤S200.基于所述口播文案确定场景分割模式,并按照确定的场景分割模式对所述口播文案进行分割,生成多个文案片段。
在一些实施例中,场景分割模式包括基于段落进行场景分割、基于语句进行场景分割、基于唱词速度进行场景分割以及基于语言要素进行场景分割,根据口播文案的内容自动确定场景分割的模式。本实施例中自动确定场景分割模式的方法具有如下优点:第一,便于视频节奏和节拍控制:不同类型的文案长度和场景具有不同的节奏和节拍要求,将文案自动分割成不同的视频场景可以确保每个场景的持续时间和节奏与文案属性相匹配,从而使视频更加流畅和吸引人;例如,娱乐类文案可能需要更快的节奏和动感变化的场景,而纪录片则可能需要更慢和深入的场景。第二,提高视频内容可理解性,将文案分割成不同的视频场景可以使观众更好地理解视频内容;不同类型的文案可能包含不同的信息和情感,将其分割成适当的场景可以让观众更容易跟随和理解视频的主题和故事。第三,便于视频切换和提高视觉吸引力,将文案自动分割成不同的场景可以提供更多视觉上的变化和吸引力;通过切换不同的场景,视频可以提供更多的视觉刺激,使观众更加专注和投入;这对于各种类型的视频内容都是有益的,包括娱乐、新闻、纪录片等。第四,提升视频编辑的效率,自动将文案分割成不同的视频场景可以提高视频编辑的效率;编辑人员不需要手动浏览和分析文案,然后决定如何切割视频;自动化这个过程可以节省时间和精力,使编辑人员能够更专注于其他创意方面的工作。
具体的,检测口播文案的文案信息,所述文案信息包括段落数和字符数;若文案信息满足第一预设条件,则将场景分割模式确定为基于段落进行场景分割;若文案信息满足第二预设条件,则将场景分割模式确定为基于语句进行场景分割;若文案信息满足第三预设条件,则检测口播文案的类型,若口播文案属于第一预设类型,则将场景分割模式确定为基于语言要素进行场景分割,否则将场景分割模式确定为基于唱词速度进行场景分割。口播文案的字符数以及段落数量可以直接解析文案得到,文案的类型通过自然语言理解能力得到该口播文案的类型归属分类。
第一预设条件为:口播文案的段落数大于第一阈值;或者,口播文案的段落数大于第二阈值、小于等于第一阈值,同时口播文案的字符数大于第三阈值。例如,当口播文案的段落数大于10时,则将场景分割模式确定为基于段落进行场景分割。又例如,当口播文案的段落数大于5、小于等于10,同时口播文案的字符数大于3000时,将场景分割模式确定为基于段落进行场景分割。
第二预设条件为:口播文案的段落数大于第二阈值、小于等于第一阈值,同时口播文案的字符数大于第四阈值、小于等于第三阈值;或者,口播文案的段落数小于等于第二阈值,同时口播文案的字符数大于第三阈值。例如,若口播文案的段落数大于5、小于等于10,同时口播文案的字符数大于2000、小于等于3000,则将场景分割模式确定为基于语句进行场景分割。又例如,若口播文案的段落数小于等于5,同时口播文案的字符数大于3000,则将场景分割模式确定为基于语句进行场景分割。
第三预设条件为:口播文案的段落数大于第二阈值、小于等于第一阈值,同时口播文案的字符数小于等于第四阈值;或者,口播文案的段落数小于等于第二阈值,同时口播文案的字符数小于第三阈值。例如,若口播文案的段落数大于5、小于等于10,同时口播文案的字符数小于等于2000,则检测口播文案的类型。又例如,若口播文案的段落数小于等于5,同时口播文案的字符数小于3000,则检测口播文案的类型。
第一预设类型包括娱乐类型和短视频类型,即,若口播文案属于娱乐类型或短视频类型,则将场景分割模式确定为基于语言要素进行场景分割;若口播文案属于其他类型,如新闻类型、纪录片类型、教学讲座类型等,则将场景分割模式确定为基于唱词速度进行场景分割。基于段落进行场景分割是根据口播文案的段落来分割,例如,将口播文案中的每个段落分割为一个文案片段。
基于语句进行场景分割是根据口播文案的语句来分割,例如,将口播文案中的每个语句分割为一个文案片段。
基于唱词速度进行场景分割是根据口播文案中的标点符号(顿号、逗号和句号)来进行分割,例如,将口播文案中两个标点符号之间的文字分割为一个文案片段。若分割得到的一个文案片段的字数少于预设值(如6个),则将该文案片段与相邻的一个文案片段合并。具体的,若第一个文案片段的字数少于预设值,则将第一个文案片段与第二个文案片段合并;若最后一个文案片段的字数少于预设值,则将最后一个文案片段与倒数第二个文案片段进行合并;对于除第一个和最后一个之外的其他文案片段,既可以与其前一个文案片段合并,也可以与其后一个文案片段合并;若两个文案片段合并后的字数仍少于预设值,则按照前述方案继续进行合并,以保证每个文案片段的字数大于预设值。
基于语言要素进行场景分割是将口播文案分割成句子,对每个句子进行关键词提取,获取到最能代表该语句含义的关键词(每句话的关键词可能不止一个),一般的,每个关键词作为一个文案片段,当相邻的两个关键词中间没有标点符号(含顿号、逗号、句号),则将这两个关键词构成一个文案片段。
步骤S300.确定所述文案片段对应的视频片段。
在一些实施例中,确定所述文案片段对应的视频片段,包括:
步骤S310.确定所述文案片段的关键词。
一般的,若场景分割模式为基于段落进行场景分割、基于语句进行场景分割或基于唱词速度进行场景分割,则对每个文案片段进行语义的提取,获得最能代表该文案片段的一个或多个关键词;若场景分割模式为基于语言要素进行场景分割,则直接将场景分割时提取的关键词作为该文案片段的关键词。
步骤S320.基于所述关键词在预设的素材库中进行检索,得到检索结果。
在一些实施例中,基于所述关键词在预设的素材库中进行检索,得到检索结果,包括:
步骤S321.将每个文案片段对应的所有关键词作为一个关键词组。
步骤S322.对关键词组中的关键词进行词性以及词频率分析,按照词频先后进行排序,同词频下按名词、动词、形容词、副词的顺序进行排序。
步骤S323.将关键词组中所有关键词同时作为检索词在素材库中进行检索,若匹配到素材,则将匹配到的素材作为检索结果;若未匹配到素材,则执行步骤S324。
即,检索是否存在包括所有关键词的素材。
步骤S324.将关键词组中词频超过一的关键词同时作为检索词在素材库中进行检索,若匹配到素材,则将匹配到的素材作为检索结果;若未匹配到素材,则执行步骤S325。
步骤S325.将关键词组的所有名词同时作为检索词在素材库中进行检索,若匹配到素材,则将匹配到的素材作为检索结果;若未匹配到素材,则执行步骤S326。
步骤S326.则将关键词中排名第一的关键词作为检索词在素材库中进行检索,若匹配到素材,则将匹配到的素材作为检索结果;若未匹配到素材,则执行步骤S327。
步骤S327.则将关键词中排名第二的关键词作为检索词在素材库中进行检索,以此类推,直到匹配到素材或者关键词组中每个关键词均作为检索词进行一次检索。在检索结果中包括素材时(即,检索到一个或多个与所述文案片段对应的素材),将检索结果中的一个素材确定为所述文案片段对应的视频片段。在检索结果中不包括素材时(即,没有检索到与所述文案片段对应的素材),基于所述关键词,利用AI作画生成图片素材,并为所述图片素材设置动画效果,得到所述文案片段对应的视频片段。
一般的,一个文案片段对应一个视频片段,文案片段的数量决定了最终的视频由多少个视频片段组成。在一些实施例中,当检索结果中只包括一个素材时,将该素材确定所述文案片段对应的视频片段;当检索结果中包括两个及以上素材时,基于所述素材对应的元数据信息,按预设规则对所述素材进行打分,将得分最高的一个素材确定所述文案片段对应的视频片段。所述素材的元数据信息包括素材的时长、入库时间、格式等等。
在一些实施例中,基于所述素材对应的元数据信息,按预设规则对所述素材进行打分,包括:根据关键词是否直接命中以及命中次数确定第一分值;根据关键词与素材的元数据内容的匹配结果确定第二分值;根据文案片段的时长与素材的时长的匹配度确定第三分值;根据素材的入库时间确定第四分值;根据素材的历史选用频率确定第五分值;根据素材的格式确定第六分值;根据素材在同一预设时间段内被同一用户用相同关键词命中的次数确定第七分钟;根据预设权重对第一分值至第七分值进行加权求和,得到最终的打分结果。每种打分方式的权重可以根据实际需求进行设置。
例如,根据关键词的命中情况打分:关键词直接命中得分最高(3分),近义词命中次之(2分)、字命中得分最低(1分);关键词命中次数越多得分越高,每多一次命中得1分,最高15分。
根据关键词的匹配度打分:通过主题、标题、OCR识别结果、图像帧识别结果、语音结果、词法、情感等维度对素材元数据内容进行特征相似度匹配,匹配度越高得分越高,最高50分。
根据素材的时长打分:素材和文案片段计算出的时长越匹配,分值越高,同一素材关键词片段总时长超过文本时长3倍为10分,2-3倍为8分,1-2倍为6分,0.6-1倍为5分,低于0.6倍时长为3分,最高10分。例如,根据文案片段计算出的文本时长是10秒钟,然后在素材库里面进行检索时,某个素材连续31秒命中关键词,则这个素材可以得10分,因为超过了3倍,这个是因为连续命中越长说明相关性越强,这个素材也就越匹配文案。
在一些实施例中,文案片段对应的视频片段的时长为:视频片段时长=(文案片段的字符数量/4)+伸缩因子,伸缩因子主要是用于视频片段间的组装过渡特技预览,一般将伸缩因子设置为2。
根据素材的入库时间打分:入库时间为24小时内10分(含),三天内9分(含),7天内8分(含),30天内7分(含),90天内6分(含),180天内5分(含),365天内4分(含),其余3分,最高10分。
根据素材的选用频率打分:素材历史被选用频率越高分值越高,最高5分。
根据素材的格式打分:视频5分,图片4分,音频2分,文本1分;分辨率匹配3分,分辨率比例匹配1分;通用格式2分(mp4、wav、mp3、png、jpg、gif),其他格式-1分,最高10分。一般的,素材为图片时需为素材设定相应的动画,从而改善最终视频的质量和效果;若是音频命中,则时间线该段视频内容采用动态文字效果,音频采用命中的音频片段;若文本命中,则将该文本转成文献样式的图片进行呈现。
重复惩罚扣分:同一用户,同一天内相同关键词每命中素材一次,该素材扣1分,当天总累计扣10分。通过设置重复惩罚扣分,可以有效避免每次都命中同样素材的情况,改善生成的视频内容的多样性。
步骤S400.将所述视频片段组装成最终的视频。
在一些实施例中,将所述视频片段组装成最终的视频,包括:将所述视频片段及文案片段组装成时间线;根据预选的视频包装模板将音视频特技、图文字幕效果以及背景配音组装进时间线;将所述时间线渲染为最终的视频。
本实施例的视频生成方法可以实现基于创意想法的视频智能自动化生产,对比现有的方法(需要通过人工写文案、人工在海量资源库中找素材,当从资源库中挑选不到与文案合适的素材时,需要花费大量时间寻找合适素材或者委托专业人员拍摄制作,再通过非线性编辑软件视频文件进行人工的挑选和片段组合),该方法可以极大的提升视频内容生产效率以及减少人力资源的投入,此方法可以应用到媒体行业视频制作、政企活动视频快速生产等多个应用场景,产生更大更广的社会经济价值。
本实施例的第二方面提供了一种视频生成装置,如图2所示,所述视频生成装置包括文案生成模块、场景分割模块、素材生成模块和视频组装模块。其中,文案生成模块,用于根据用户输入的创意描述生成口播文案;场景分割模块,用于基于所述口播文案确定场景分割模式,并按照确定的场景分割模式对所述口播文案进行分割,生成多个文案片段;素材生成模块,用于确定所述文案片段对应的视频片段;视频组装模块,用于将所述视频片段组装成最终的视频。
在一些实施例中,所述场景分割模块还用于:检测口播文案的文案信息,所述文案信息包括段落数和字符数;若文案信息满足第一预设条件,则根据口播文案的段落数量将口播文案分割为若干个文案片段;若文案信息满足第二预设条件,则根据口播文案的语句数量将口播文案分割为若干个文案片段;若文案信息满足第三预设条件,则检测口播文案的类型,若口播文案属于第一预设类型,则根据口播文案的关键词将口播文案分割为若干个文案片段,否则根据口播文案中的标点符号将口播文案分割为若干个文案片段。
第一预设条件为:口播文案的段落数大于第一阈值;或者,口播文案的段落数大于第二阈值、小于等于第一阈值,同时口播文案的字符数大于第三阈值;第二预设条件为:口播文案的段落数大于第二阈值、小于等于第一阈值,同时口播文案的字符数大于第四阈值、小于等于第三阈值;或者,口播文案的段落数小于等于第二阈值,同时口播文案的字符数大于第三阈值;第三预设条件为:口播文案的段落数大于第二阈值、小于等于第一阈值,同时口播文案的字符数小于等于第四阈值;或者,口播文案的段落数小于等于第二阈值,同时口播文案的字符数小于第三阈值。
第一预设类型包括娱乐类型和短视频类型。
根据口播文案的段落数量将口播文案分割为若干个文案片段,包括:将口播文案中的每个段落分割为一个文案片段。根据口播文案的语句数量将口播文案分割为若干个文案片段,包括:将口播文案中的每个语句分割为一个文案片段。根据口播文案中的标点符号将口播文案分割为若干个文案片段,包括:将两个标点符号之间的文字分割为一个口播文案,若分割得到的一个文案片段的字数少于预设值,则将该口播文案与相邻的一条口播文案合并。根据口播文案的关键词将口播文案分割为若干个文案片段,包括:对每个语句进行关键词提取,每个关键词作为一个文案片段;当相邻的两个关键词中间没有标点符号时,将这两个关键词构成一个文案片段。
在一些实施例中,所述素材生成模块还用于:确定所述文案片段的关键词;基于所述关键词在预设的素材库中进行检索,得到检索结果;在检索结果中包括素材时,将检索结果中的一个素材确定为所述文案片段对应的视频片段;在检索结果中不包括素材时,基于所述关键词,利用AI作画生成图片素材,并为所述图片素材设置动画效果,得到所述文案片段对应的视频片段。
在一些实施例中,所述素材生成模块还用于:当检索结果中只包括一个素材时,将该素材确定所述文案片段对应的视频片段;当检索结果中包括两个及以上素材时,基于所述素材对应的元数据信息,按预设规则对所述素材进行打分,将得分最高的一个素材确定所述文案片段对应的视频片段。
在一些实施例中,所述素材生成模块还用于:根据关键词是否直接命中以及命中次数确定第一分值;根据关键词与素材的元数据内容的匹配结果确定第二分值;根据文案片段的时长与素材的时长的匹配度确定第三分值;根据素材的入库时间确定第四分值;根据素材的历史选用频率确定第五分值;根据素材的格式确定第六分值;根据素材在同一预设时间段内被同一用户用相同关键词命中的次数确定第七分钟;根据预设权重对第一分值至第七分值进行加权求和,得到最终的打分结果。
在一些实施例中,所述视频组装模块还用于:将所述视频片段及文案片段组装成时间线;根据预选的视频包装模板将音视频特技、图文字幕效果以及背景配音组装进时间线;将所述时间线渲染为最终的视频。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (10)

1.一种基于文字创意的视频自动生成方法,其特征在于,包括:
根据用户输入的创意描述生成口播文案;
基于所述口播文案确定场景分割模式,并按照确定的场景分割模式对所述口播文案进行分割,生成多个文案片段;
确定所述文案片段对应的视频片段;
将所述视频片段组装成最终的视频。
2.根据权利要求1所述的一种基于文字创意的视频自动生成方法,其特征在于,基于所述口播文案确定场景分割模式,并按照确定的场景分割模式对所述口播文案进行分割,生成多个文案片段,包括:
检测口播文案的文案信息,所述文案信息包括段落数和字符数;
若文案信息满足第一预设条件,则根据口播文案的段落数量将口播文案分割为若干个文案片段;
若文案信息满足第二预设条件,则根据口播文案的语句数量将口播文案分割为若干个文案片段;
若文案信息满足第三预设条件,则检测口播文案的类型,若口播文案属于第一预设类型,则根据口播文案的关键词将口播文案分割为若干个文案片段,否则根据口播文案中的标点符号将口播文案分割为若干个文案片段。
3.根据权利要求2所述的一种基于文字创意的视频自动生成方法,其特征在于,第一预设条件为:口播文案的段落数大于第一阈值;或者,口播文案的段落数大于第二阈值、小于等于第一阈值,同时口播文案的字符数大于第三阈值;
第二预设条件为:口播文案的段落数大于第二阈值、小于等于第一阈值,同时口播文案的字符数大于第四阈值、小于等于第三阈值;或者,口播文案的段落数小于等于第二阈值,同时口播文案的字符数大于第三阈值;
第三预设条件为:口播文案的段落数大于第二阈值、小于等于第一阈值,同时口播文案的字符数小于等于第四阈值;或者,口播文案的段落数小于等于第二阈值,同时口播文案的字符数小于第三阈值;
第一预设类型包括娱乐类型和短视频类型。
4.根据权利要求2所述的一种基于文字创意的视频自动生成方法,其特征在于,
根据口播文案的段落数量将口播文案分割为若干个文案片段,包括:将口播文案中的每个段落分割为一个文案片段;
根据口播文案的语句数量将口播文案分割为若干个文案片段,包括:将口播文案中的每个语句分割为一个文案片段;
根据口播文案中的标点符号将口播文案分割为若干个文案片段,包括:将口播文案中两个标点符号之间的文字分割为一个文案片段,若分割得到的一个文案片段的字数少于预设值,则将该文案片段与相邻的一个文案片段合并;
根据口播文案的关键词将口播文案分割为若干个文案片段,包括:将口播文案分割成句子,对每个句子进行关键词提取,每个关键词作为一个文案片段;当相邻的两个关键词中间没有标点符号时,将这两个关键词构成一个文案片段。
5.根据权利要求1所述的一种基于文字创意的视频自动生成方法,其特征在于,确定所述文案片段对应的视频片段,包括:
确定所述文案片段的关键词;
基于所述关键词在预设的素材库中进行检索,得到检索结果;
在检索结果中包括素材时,将检索结果中的一个素材确定为所述文案片段对应的视频片段;
在检索结果中不包括素材时,基于所述关键词,利用AI作画生成图片素材,并为所述图片素材设置动画效果,得到所述文案片段对应的视频片段。
6.根据权利要求5所述的一种基于文字创意的视频自动生成方法,其特征在于,基于所述关键词在预设的素材库中进行检索,得到检索结果,包括:
将每个文案片段对应的所有关键词作为一个关键词组;
对关键词组中的关键词进行词性以及词频率分析,按照词频先后进行排序,同词频下按名词、动词、形容词、副词的顺序进行排序;
将关键词组中所有关键词同时作为检索词在素材库中进行检索,若匹配到素材,则将匹配到的素材作为检索结果;若未匹配到素材,则将关键词组中词频超过一的关键词同时作为检索词在素材库中进行检索,若匹配到素材,则将匹配到的素材作为检索结果;若未匹配到素材,将关键词组的所有名词同时作为检索词在素材库中进行检索,若匹配到素材,则将匹配到的素材作为检索结果;若未匹配到素材,则将关键词中排名第一的关键词作为检索词在素材库中进行检索,若匹配到素材,则将匹配到的素材作为检索结果;若未匹配到素材,则将关键词中排名第二的关键词作为检索词在素材库中进行检索,以此类推,直到匹配到素材或者关键词组中每个关键词均作为检索词进行一次检索。
7.根据权利要求5所述的一种基于文字创意的视频自动生成方法,其特征在于,将检索结果中的一个视频片段确定为所述文案对应的视频片段,包括:
当检索结果中只包括一个素材时,将该素材确定所述文案片段对应的视频片段;
当检索结果中包括两个及以上素材时,基于所述素材对应的元数据信息,按预设规则对所述素材进行打分,将得分最高的一个素材确定所述文案片段对应的视频片段。
8.根据权利要求7所述的一种基于文字创意的视频自动生成方法,其特征在于,基于所述素材对应的元数据信息,按预设规则对所述素材进行打分,包括:
根据关键词是否直接命中以及命中次数确定第一分值;
根据关键词与素材的元数据内容的匹配结果确定第二分值;
根据文案片段的时长与素材的时长的匹配度确定第三分值;
根据素材的入库时间确定第四分值;
根据素材的历史选用频率确定第五分值;
根据素材的格式确定第六分值;
根据素材在同一预设时间段内被同一用户用相同关键词命中的次数确定第七分钟;
根据预设权重对第一分值至第七分值进行加权求和,得到最终的打分结果。
9.根据权利要求1所述的一种基于文字创意的视频自动生成方法,其特征在于,将所述视频片段组装成最终的视频,包括:
将所述视频片段及文案片段组装成时间线;
根据预选的视频包装模板将音视频特技、图文字幕效果以及背景配音组装进时间线;
将所述时间线渲染为最终的视频。
10.一种基于文字创意的视频自动生成装置,其特征在于,包括:
文案生成模块,用于根据用户输入的创意描述生成口播文案;
场景分割模块,用于基于所述口播文案确定场景分割模式,并按照确定的场景分割模式对所述口播文案进行分割,生成多个文案片段;
素材生成模块,用于确定所述文案片段对应的视频片段;
视频组装模块,用于将所述视频片段组装成最终的视频。
CN202311334165.8A 2023-10-16 2023-10-16 一种基于文字创意的视频自动生成方法和装置 Active CN117082293B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311334165.8A CN117082293B (zh) 2023-10-16 2023-10-16 一种基于文字创意的视频自动生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311334165.8A CN117082293B (zh) 2023-10-16 2023-10-16 一种基于文字创意的视频自动生成方法和装置

Publications (2)

Publication Number Publication Date
CN117082293A true CN117082293A (zh) 2023-11-17
CN117082293B CN117082293B (zh) 2023-12-19

Family

ID=88704642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311334165.8A Active CN117082293B (zh) 2023-10-16 2023-10-16 一种基于文字创意的视频自动生成方法和装置

Country Status (1)

Country Link
CN (1) CN117082293B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007036540A (ja) * 2005-07-26 2007-02-08 Matsushita Electric Ind Co Ltd 映像シーン情報生成装置
CN104216968A (zh) * 2014-08-25 2014-12-17 华中科技大学 一种基于文件相似度的排重方法及系统
CN105868176A (zh) * 2016-03-02 2016-08-17 北京同尘世纪科技有限公司 基于文字的视频合成方法及其系统
US20170098324A1 (en) * 2015-10-05 2017-04-06 Vitthal Srinivasan Method and system for automatically converting input text into animated video
US20180249193A1 (en) * 2017-02-28 2018-08-30 Alibaba Group Holding Limited Method and apparatus for generating video data using textual data
CN112905838A (zh) * 2021-02-07 2021-06-04 北京有竹居网络技术有限公司 信息检索方法和装置、存储介质和电子设备
CN112929746A (zh) * 2021-02-07 2021-06-08 北京有竹居网络技术有限公司 视频生成方法和装置、存储介质和电子设备
CN114363531A (zh) * 2022-01-14 2022-04-15 中国平安人寿保险股份有限公司 基于h5的文案解说视频生成方法、装置、设备以及介质
CN115272533A (zh) * 2022-07-29 2022-11-01 新壹(北京)科技有限公司 一种基于视频结构化数据的智能图文转视频的方法及系统
CN116320607A (zh) * 2023-03-14 2023-06-23 平安科技(深圳)有限公司 智能视频生成方法、装置、设备及介质
CN116527994A (zh) * 2023-04-19 2023-08-01 五八畅生活(北京)信息技术有限公司 视频的生成方法及装置、电子设备
CN116541576A (zh) * 2023-07-06 2023-08-04 浙江档科信息技术有限公司 基于大数据应用的档案数据管理标注方法及系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007036540A (ja) * 2005-07-26 2007-02-08 Matsushita Electric Ind Co Ltd 映像シーン情報生成装置
CN104216968A (zh) * 2014-08-25 2014-12-17 华中科技大学 一种基于文件相似度的排重方法及系统
US20170098324A1 (en) * 2015-10-05 2017-04-06 Vitthal Srinivasan Method and system for automatically converting input text into animated video
CN105868176A (zh) * 2016-03-02 2016-08-17 北京同尘世纪科技有限公司 基于文字的视频合成方法及其系统
US20180249193A1 (en) * 2017-02-28 2018-08-30 Alibaba Group Holding Limited Method and apparatus for generating video data using textual data
CN112905838A (zh) * 2021-02-07 2021-06-04 北京有竹居网络技术有限公司 信息检索方法和装置、存储介质和电子设备
CN112929746A (zh) * 2021-02-07 2021-06-08 北京有竹居网络技术有限公司 视频生成方法和装置、存储介质和电子设备
CN114363531A (zh) * 2022-01-14 2022-04-15 中国平安人寿保险股份有限公司 基于h5的文案解说视频生成方法、装置、设备以及介质
CN115272533A (zh) * 2022-07-29 2022-11-01 新壹(北京)科技有限公司 一种基于视频结构化数据的智能图文转视频的方法及系统
CN116320607A (zh) * 2023-03-14 2023-06-23 平安科技(深圳)有限公司 智能视频生成方法、装置、设备及介质
CN116527994A (zh) * 2023-04-19 2023-08-01 五八畅生活(北京)信息技术有限公司 视频的生成方法及装置、电子设备
CN116541576A (zh) * 2023-07-06 2023-08-04 浙江档科信息技术有限公司 基于大数据应用的档案数据管理标注方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周劼人: "千人千面:AIGC时代媒体变革的本质", 《新华智云科技有限公司》 *

Also Published As

Publication number Publication date
CN117082293B (zh) 2023-12-19

Similar Documents

Publication Publication Date Title
JP6956337B2 (ja) 関連性の検出及びレビューのためのコンテンツの対話型表現
Sundaram et al. A utility framework for the automatic generation of audio-visual skims
Yang et al. Content based lecture video retrieval using speech and video text information
Pavel et al. Sceneskim: Searching and browsing movies using synchronized captions, scripts and plot summaries
WO2012020668A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
WO2012020667A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
CN110781328A (zh) 基于语音识别的视频生成方法、系统、装置和存储介质
WO2024131054A1 (zh) 一种富媒体文稿辅助生成装置
US20220121712A1 (en) Interactive representation of content for relevance detection and review
CN110750996B (zh) 多媒体信息的生成方法、装置及可读存储介质
US20200151220A1 (en) Interactive representation of content for relevance detection and review
Braun et al. Finding the right words: Investigating machine-generated video description quality using a corpus-based approach
CN110781346A (zh) 基于虚拟形象的新闻生产方法、系统、装置和存储介质
CN112004164A (zh) 一种视频海报自动生成方法
CN116361510A (zh) 一种利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法和装置
CN114547373A (zh) 一种基于音频智能识别搜索节目的方法
CN116320607A (zh) 智能视频生成方法、装置、设备及介质
Tarvainen et al. Film mood and its quantitative determinants in different types of scenes
CN109376145A (zh) 影视对白数据库的建立方法、建立装置及存储介质
AlMousa et al. Nlp-enriched automatic video segmentation
CN117082293B (zh) 一种基于文字创意的视频自动生成方法和装置
Haloi et al. Unsupervised story segmentation and indexing of broadcast news video
JP2020129189A (ja) 動画編集サーバおよびプログラム
CN114722829A (zh) 一种基于语言模型的修辞古诗自动生成方法
JP2020129357A (ja) 動画編集サーバおよびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant