CN111259196B - 一种基于视频大数据的文章转视频的方法 - Google Patents

一种基于视频大数据的文章转视频的方法 Download PDF

Info

Publication number
CN111259196B
CN111259196B CN202010025398.XA CN202010025398A CN111259196B CN 111259196 B CN111259196 B CN 111259196B CN 202010025398 A CN202010025398 A CN 202010025398A CN 111259196 B CN111259196 B CN 111259196B
Authority
CN
China
Prior art keywords
video
article
information
converting
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010025398.XA
Other languages
English (en)
Other versions
CN111259196A (zh
Inventor
康洪文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010025398.XA priority Critical patent/CN111259196B/zh
Publication of CN111259196A publication Critical patent/CN111259196A/zh
Application granted granted Critical
Publication of CN111259196B publication Critical patent/CN111259196B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于视频大数据的文章转视频的方法,具体步骤为:用户输入一篇自然语言表述的文章;利用人工智能自然语言处理技术,对文章的文本信息进行关键字识别与提取;根据视频内容,利用深度学习技术对已有的视频大数据集打标签;根据提取到的关键字,在学习到的视频大数据集标签系统中,进行标签检索匹配,输出匹配度高的视频数据;将输入的文章信息生成为视频字幕;利用语音合成技术对输入的文章信息进行语音合成;将视频、字幕、语音合并渲染,生成推荐视频;本发明能够极大地减少人工合成视频的时间成本,提高内容创作效率。

Description

一种基于视频大数据的文章转视频的方法
技术领域
本发明涉及媒资管理技术领域,具体涉及一种基于视频大数据的文章转视频的方法。
背景技术
对于内容生产者来说,音频信息由于其语音特性,无法向用户提供直观的画面信息,不利于用户对于信息内容的理解接受,而传统的人工转视频方法需要人为收集、浏览、标记大量的视频数据,再从中选出一些跟音频信息相匹配的片段来,耗费了巨大的时间与精力。
发明内容
本发明的目的在于针对现有技术的缺陷和不足,提供一种基于视频大数据的文章转视频的方法,可以从海量的已有视频数据中,自动匹配选取合适的视频片段,将音频快速转换为相应的视频内容,给用户更强的视觉冲击力和听觉体验,将作者表示的信息以更生动、丰满、直观的形象传达给用户。
为实现上述目的,本发明采用的技术方案是:它包含如下步骤:
一、用户输入一篇自然语言表述的文章;
二、利用人工智能自然语言处理技术,对输入的文章信息进行关键字识别与提取;
三、利用深度学习技术,基于视频理解,对视频大数据集自动打标签;
四、在视频大数据集标签系统中,进行标签检索匹配,输出匹配度高的视频数据;
五、将输入的文章生成为字幕信息;
六、利用语音合成技术将输入的文章信息合成为语音;
七、将视频、字幕、音频合并渲染,生成推荐视频。
进一步地,步骤二的具体方法是:通过embedding层技术得到字或者词向量,输入双向LSTM,经由SoftMax隐藏层计算得到一个BIO标注体系的无监督概率序列,再经过CRF监督层,提取出关键字序列;
进一步地,步骤三的具体方法是:使用深度3D卷积神经网络提取视频的时空信息,进行场景识别、动作捕捉、情感分析,提取出视频的场景信息、对象信息、人物表情、运动信息,作为视频的标签内容;
进一步地,步骤四的具体方法是:将步骤二中提取出的关键字序列特征值,与步骤三中建立的视频标签库中的标签特征值,进行相似度计算,相似度超过0.85即视为匹配成功;
进一步地,步骤六的具体方法是:先将输入文章的文字序列转换成语音波形,送入不同人物的声纹特征学习到的深度神经网络中,将其合成为具有不同性别、音色、语速、语调的高质量语音流。
采用上述方案后,本发明有益效果为:本发明所述的一种基于视频大数据的文章转视频的方法,基于人工智能自然语言处理技术及深度学习技术构建的视频大数据标签匹配系统进行的视频合成方法,能够将用户输入的音频转化成相应的视频内容,极大地减少人工合成视频的时间成本,提高内容创作效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的流程图。
实施方式
下面结合附图,对本发明作进一步的说明。
参看图1所示,本具体实施方式采用的技术方案是:它包含如下步骤:
一、用户输入一篇自然语言表述的文章;
二、利用人工智能自然语言处理技术,对输入的文章信息进行关键字识别与提取,具体是通过embedding层技术得到字或者词向量,输入双向LSTM,经由SoftMax隐藏层计算得到一个BIO标注体系的无监督概率序列,再经过CRF监督层,提取出关键字序列;
三、利用深度学习技术,基于视频理解,对视频大数据集自动打标签,具体是:使用深度3D卷积神经网络提取视频的时空信息,进行场景识别、动作捕捉、情感分析等,提取出视频的场景信息、对象信息、人物表情、运动信息等,作为视频的标签内容;
四、在视频大数据集标签系统中,进行标签检索匹配,输出匹配度高的视频数据,具体是:将步骤二中提取出的关键字序列特征值,与步骤三中建立的视频标签库中的标签特征值,进行相似度计算,相似度超过0.85即视为匹配成功;
五、将输入的文章生成为字幕信息;
六、利用语音合成技术将输入的文章信息合成为语音,具体是:先将输入文章的文字序列转换成语音波形,送入不同人物的声纹特征学习到的深度神经网络中,将其合成为具有不同性别、音色、语速、语调的高质量语音流;
七、将视频、字幕、音频合并渲染,生成推荐视频。
本发明所述的一种基于视频大数据的文章转视频的方法,可以从海量的已有视频数据中,自动匹配选取合适的视频片段,将音频快速转换为相应的视频内容,给用户更强的视觉冲击力和听觉体验,将作者表示的信息以更生动、丰满、直观的形象传达给用户。
以上所述,仅用以说明本发明的技术方案而非限制,本领域普通技术人员对本发明的技术方案所做的其它修改或者等同替换,只要不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。

Claims (3)

1.一种基于视频大数据的文章转视频的方法,其特征在于它包含如下步骤:
一、用户输入一篇自然语言表述的文章;
二、利用人工智能自然语言处理技术,获取字或者词向量,并基于所述字或者词向量确定无监督概率序列,再基于无监督概率序列提取出关键字序列;
三、使用深度3D卷积神经网络提取视频的时空信息,进行场景识别、动作捕捉、情感分析,提取出视频的场景信息、对象信息、人物表情、运动信息,作为视频的标签内容;
四、在视频大数据集标签系统中,进行标签检索匹配,输出匹配度高的视频数据;其中,步骤四的具体方法是:将步骤二中提取出的关键字序列特征值,与步骤三中建立的视频标签库中的标签特征值,进行相似度计算,相似度超过0.85即视为匹配成功;
五、将输入的文章生成为字幕信息;
六、利用语音合成技术将输入的文章信息合成为语音;
七、将视频、字幕、音频合并渲染,生成推荐视频。
2.根据权利要求1所述的一种基于视频大数据的文章转视频的方法,其特征在于步骤二的具体方法是:通过embedding层技术得到所述字或者词向量,输入双向LSTM,经由SoftMax隐藏层计算得到一个BIO标注体系的所述无监督概率序列,再经过CRF监督层,提取出所述关键字序列。
3.根据权利要求1所述的一种基于视频大数据的文章转视频的方法,其特征在于步骤六的具体方法是:先将输入文章的文字序列转换成语音波形,送入不同人物的声纹特征学习到的深度神经网络中,将其合成为具有不同性别、音色、语速、语调的高质量语音流。
CN202010025398.XA 2020-01-10 2020-01-10 一种基于视频大数据的文章转视频的方法 Active CN111259196B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010025398.XA CN111259196B (zh) 2020-01-10 2020-01-10 一种基于视频大数据的文章转视频的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010025398.XA CN111259196B (zh) 2020-01-10 2020-01-10 一种基于视频大数据的文章转视频的方法

Publications (2)

Publication Number Publication Date
CN111259196A CN111259196A (zh) 2020-06-09
CN111259196B true CN111259196B (zh) 2024-02-06

Family

ID=70948649

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010025398.XA Active CN111259196B (zh) 2020-01-10 2020-01-10 一种基于视频大数据的文章转视频的方法

Country Status (1)

Country Link
CN (1) CN111259196B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111724805A (zh) * 2020-06-29 2020-09-29 北京百度网讯科技有限公司 用于处理信息的方法和装置
CN112115301B (zh) * 2020-08-31 2023-09-19 武汉美和易思数字科技有限公司 一种基于课堂笔记的视频标注方法及系统
CN114401377A (zh) * 2021-12-30 2022-04-26 杭州摸象大数据科技有限公司 金融营销视频生成方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868176A (zh) * 2016-03-02 2016-08-17 北京同尘世纪科技有限公司 基于文字的视频合成方法及其系统
CN107832382A (zh) * 2017-10-30 2018-03-23 百度在线网络技术(北京)有限公司 基于文字生成视频的方法、装置、设备及存储介质
CN108986186A (zh) * 2018-08-14 2018-12-11 山东师范大学 文字转化视频的方法和系统
CN110110144A (zh) * 2018-01-12 2019-08-09 天津三星通信技术研究有限公司 视频的处理方法和设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050262081A1 (en) * 2004-05-19 2005-11-24 Newman Ronald L System, method and computer program product for organization and annotation of related information

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868176A (zh) * 2016-03-02 2016-08-17 北京同尘世纪科技有限公司 基于文字的视频合成方法及其系统
CN107832382A (zh) * 2017-10-30 2018-03-23 百度在线网络技术(北京)有限公司 基于文字生成视频的方法、装置、设备及存储介质
CN110110144A (zh) * 2018-01-12 2019-08-09 天津三星通信技术研究有限公司 视频的处理方法和设备
CN108986186A (zh) * 2018-08-14 2018-12-11 山东师范大学 文字转化视频的方法和系统

Also Published As

Publication number Publication date
CN111259196A (zh) 2020-06-09

Similar Documents

Publication Publication Date Title
CN111259196B (zh) 一种基于视频大数据的文章转视频的方法
CN111177366B (zh) 一种基于查询机制的抽取式文档摘要自动生成方法、装置及系统
US20230267916A1 (en) Text-based virtual object animation generation method, apparatus, storage medium, and terminal
CN110633683A (zh) 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法
Lee et al. Sound-guided semantic image manipulation
CN110675853B (zh) 一种基于深度学习的情感语音合成方法及装置
WO2023065617A1 (zh) 基于预训练模型和召回排序的跨模态检索系统及方法
Li et al. Direct speech-to-image translation
CN110119444A (zh) 一种抽取式与生成式相结合的公文摘要生成模型
CN111259109B (zh) 一种基于视频大数据的音频转视频的方法
CN113344036A (zh) 一种基于动态词嵌入的多模态Transformer的图像描述方法
CN110866129A (zh) 一种基于跨媒体统一表征模型的跨媒体检索方法
CN113838174A (zh) 一种音频驱动人脸动画生成方法、装置、设备与介质
CN111916054A (zh) 基于唇形的语音生成方法、装置和系统及存储介质
CN118043884A (zh) 音频和视频转换器
CN115129934A (zh) 一种多模态视频理解方法
Li et al. AMOA: Global acoustic feature enhanced modal-order-aware network for multimodal sentiment analysis
CN112329604B (zh) 一种基于多维度低秩分解的多模态情感分析方法
Lee et al. Robust sound-guided image manipulation
CN112949284B (zh) 一种基于Transformer模型的文本语义相似度预测方法
CN117594036A (zh) 一种基于视频大数据的音频转视频的方法
Chandaran et al. Image Captioning Using Deep Learning Techniques for Partially Impaired People
Hukkeri et al. Erratic navigation in lecture videos using hybrid text based index point generation
Wang et al. Video Captioning Based on Joint Image–Audio Deep Learning Techniques
Yu et al. Text2Video: automatic video generation based on text scripts

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210220

Address after: 518000 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 Floors

Applicant after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

Address before: 310012 no.2-10, north of building 13, 199 Wensan Road, Xihu District, Hangzhou City, Zhejiang Province

Applicant before: Hangzhou Huichuan Intelligent Technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant