CN111259196B - 一种基于视频大数据的文章转视频的方法 - Google Patents
一种基于视频大数据的文章转视频的方法 Download PDFInfo
- Publication number
- CN111259196B CN111259196B CN202010025398.XA CN202010025398A CN111259196B CN 111259196 B CN111259196 B CN 111259196B CN 202010025398 A CN202010025398 A CN 202010025398A CN 111259196 B CN111259196 B CN 111259196B
- Authority
- CN
- China
- Prior art keywords
- video
- article
- information
- converting
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000005516 engineering process Methods 0.000 claims abstract description 15
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 6
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 5
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 5
- 238000003058 natural language processing Methods 0.000 claims abstract description 5
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 5
- 238000002372 labelling Methods 0.000 claims abstract description 4
- 238000009877 rendering Methods 0.000 claims abstract description 4
- 238000004364 calculation method Methods 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 230000008451 emotion Effects 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 abstract description 4
- 238000000605 extraction Methods 0.000 abstract 1
- 230000000007 visual effect Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
- G06F16/739—Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7844—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/7867—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Library & Information Science (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于视频大数据的文章转视频的方法,具体步骤为:用户输入一篇自然语言表述的文章;利用人工智能自然语言处理技术,对文章的文本信息进行关键字识别与提取;根据视频内容,利用深度学习技术对已有的视频大数据集打标签;根据提取到的关键字,在学习到的视频大数据集标签系统中,进行标签检索匹配,输出匹配度高的视频数据;将输入的文章信息生成为视频字幕;利用语音合成技术对输入的文章信息进行语音合成;将视频、字幕、语音合并渲染,生成推荐视频;本发明能够极大地减少人工合成视频的时间成本,提高内容创作效率。
Description
技术领域
本发明涉及媒资管理技术领域,具体涉及一种基于视频大数据的文章转视频的方法。
背景技术
对于内容生产者来说,音频信息由于其语音特性,无法向用户提供直观的画面信息,不利于用户对于信息内容的理解接受,而传统的人工转视频方法需要人为收集、浏览、标记大量的视频数据,再从中选出一些跟音频信息相匹配的片段来,耗费了巨大的时间与精力。
发明内容
本发明的目的在于针对现有技术的缺陷和不足,提供一种基于视频大数据的文章转视频的方法,可以从海量的已有视频数据中,自动匹配选取合适的视频片段,将音频快速转换为相应的视频内容,给用户更强的视觉冲击力和听觉体验,将作者表示的信息以更生动、丰满、直观的形象传达给用户。
为实现上述目的,本发明采用的技术方案是:它包含如下步骤:
一、用户输入一篇自然语言表述的文章;
二、利用人工智能自然语言处理技术,对输入的文章信息进行关键字识别与提取;
三、利用深度学习技术,基于视频理解,对视频大数据集自动打标签;
四、在视频大数据集标签系统中,进行标签检索匹配,输出匹配度高的视频数据;
五、将输入的文章生成为字幕信息;
六、利用语音合成技术将输入的文章信息合成为语音;
七、将视频、字幕、音频合并渲染,生成推荐视频。
进一步地,步骤二的具体方法是:通过embedding层技术得到字或者词向量,输入双向LSTM,经由SoftMax隐藏层计算得到一个BIO标注体系的无监督概率序列,再经过CRF监督层,提取出关键字序列;
进一步地,步骤三的具体方法是:使用深度3D卷积神经网络提取视频的时空信息,进行场景识别、动作捕捉、情感分析,提取出视频的场景信息、对象信息、人物表情、运动信息,作为视频的标签内容;
进一步地,步骤四的具体方法是:将步骤二中提取出的关键字序列特征值,与步骤三中建立的视频标签库中的标签特征值,进行相似度计算,相似度超过0.85即视为匹配成功;
进一步地,步骤六的具体方法是:先将输入文章的文字序列转换成语音波形,送入不同人物的声纹特征学习到的深度神经网络中,将其合成为具有不同性别、音色、语速、语调的高质量语音流。
采用上述方案后,本发明有益效果为:本发明所述的一种基于视频大数据的文章转视频的方法,基于人工智能自然语言处理技术及深度学习技术构建的视频大数据标签匹配系统进行的视频合成方法,能够将用户输入的音频转化成相应的视频内容,极大地减少人工合成视频的时间成本,提高内容创作效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的流程图。
实施方式
下面结合附图,对本发明作进一步的说明。
参看图1所示,本具体实施方式采用的技术方案是:它包含如下步骤:
一、用户输入一篇自然语言表述的文章;
二、利用人工智能自然语言处理技术,对输入的文章信息进行关键字识别与提取,具体是通过embedding层技术得到字或者词向量,输入双向LSTM,经由SoftMax隐藏层计算得到一个BIO标注体系的无监督概率序列,再经过CRF监督层,提取出关键字序列;
三、利用深度学习技术,基于视频理解,对视频大数据集自动打标签,具体是:使用深度3D卷积神经网络提取视频的时空信息,进行场景识别、动作捕捉、情感分析等,提取出视频的场景信息、对象信息、人物表情、运动信息等,作为视频的标签内容;
四、在视频大数据集标签系统中,进行标签检索匹配,输出匹配度高的视频数据,具体是:将步骤二中提取出的关键字序列特征值,与步骤三中建立的视频标签库中的标签特征值,进行相似度计算,相似度超过0.85即视为匹配成功;
五、将输入的文章生成为字幕信息;
六、利用语音合成技术将输入的文章信息合成为语音,具体是:先将输入文章的文字序列转换成语音波形,送入不同人物的声纹特征学习到的深度神经网络中,将其合成为具有不同性别、音色、语速、语调的高质量语音流;
七、将视频、字幕、音频合并渲染,生成推荐视频。
本发明所述的一种基于视频大数据的文章转视频的方法,可以从海量的已有视频数据中,自动匹配选取合适的视频片段,将音频快速转换为相应的视频内容,给用户更强的视觉冲击力和听觉体验,将作者表示的信息以更生动、丰满、直观的形象传达给用户。
以上所述,仅用以说明本发明的技术方案而非限制,本领域普通技术人员对本发明的技术方案所做的其它修改或者等同替换,只要不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。
Claims (3)
1.一种基于视频大数据的文章转视频的方法,其特征在于它包含如下步骤:
一、用户输入一篇自然语言表述的文章;
二、利用人工智能自然语言处理技术,获取字或者词向量,并基于所述字或者词向量确定无监督概率序列,再基于无监督概率序列提取出关键字序列;
三、使用深度3D卷积神经网络提取视频的时空信息,进行场景识别、动作捕捉、情感分析,提取出视频的场景信息、对象信息、人物表情、运动信息,作为视频的标签内容;
四、在视频大数据集标签系统中,进行标签检索匹配,输出匹配度高的视频数据;其中,步骤四的具体方法是:将步骤二中提取出的关键字序列特征值,与步骤三中建立的视频标签库中的标签特征值,进行相似度计算,相似度超过0.85即视为匹配成功;
五、将输入的文章生成为字幕信息;
六、利用语音合成技术将输入的文章信息合成为语音;
七、将视频、字幕、音频合并渲染,生成推荐视频。
2.根据权利要求1所述的一种基于视频大数据的文章转视频的方法,其特征在于步骤二的具体方法是:通过embedding层技术得到所述字或者词向量,输入双向LSTM,经由SoftMax隐藏层计算得到一个BIO标注体系的所述无监督概率序列,再经过CRF监督层,提取出所述关键字序列。
3.根据权利要求1所述的一种基于视频大数据的文章转视频的方法,其特征在于步骤六的具体方法是:先将输入文章的文字序列转换成语音波形,送入不同人物的声纹特征学习到的深度神经网络中,将其合成为具有不同性别、音色、语速、语调的高质量语音流。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010025398.XA CN111259196B (zh) | 2020-01-10 | 2020-01-10 | 一种基于视频大数据的文章转视频的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010025398.XA CN111259196B (zh) | 2020-01-10 | 2020-01-10 | 一种基于视频大数据的文章转视频的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111259196A CN111259196A (zh) | 2020-06-09 |
CN111259196B true CN111259196B (zh) | 2024-02-06 |
Family
ID=70948649
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010025398.XA Active CN111259196B (zh) | 2020-01-10 | 2020-01-10 | 一种基于视频大数据的文章转视频的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111259196B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111724805A (zh) * | 2020-06-29 | 2020-09-29 | 北京百度网讯科技有限公司 | 用于处理信息的方法和装置 |
CN112115301B (zh) * | 2020-08-31 | 2023-09-19 | 武汉美和易思数字科技有限公司 | 一种基于课堂笔记的视频标注方法及系统 |
CN114401377A (zh) * | 2021-12-30 | 2022-04-26 | 杭州摸象大数据科技有限公司 | 金融营销视频生成方法、装置、计算机设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105868176A (zh) * | 2016-03-02 | 2016-08-17 | 北京同尘世纪科技有限公司 | 基于文字的视频合成方法及其系统 |
CN107832382A (zh) * | 2017-10-30 | 2018-03-23 | 百度在线网络技术(北京)有限公司 | 基于文字生成视频的方法、装置、设备及存储介质 |
CN108986186A (zh) * | 2018-08-14 | 2018-12-11 | 山东师范大学 | 文字转化视频的方法和系统 |
CN110110144A (zh) * | 2018-01-12 | 2019-08-09 | 天津三星通信技术研究有限公司 | 视频的处理方法和设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050262081A1 (en) * | 2004-05-19 | 2005-11-24 | Newman Ronald L | System, method and computer program product for organization and annotation of related information |
-
2020
- 2020-01-10 CN CN202010025398.XA patent/CN111259196B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105868176A (zh) * | 2016-03-02 | 2016-08-17 | 北京同尘世纪科技有限公司 | 基于文字的视频合成方法及其系统 |
CN107832382A (zh) * | 2017-10-30 | 2018-03-23 | 百度在线网络技术(北京)有限公司 | 基于文字生成视频的方法、装置、设备及存储介质 |
CN110110144A (zh) * | 2018-01-12 | 2019-08-09 | 天津三星通信技术研究有限公司 | 视频的处理方法和设备 |
CN108986186A (zh) * | 2018-08-14 | 2018-12-11 | 山东师范大学 | 文字转化视频的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111259196A (zh) | 2020-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111259196B (zh) | 一种基于视频大数据的文章转视频的方法 | |
CN111177366B (zh) | 一种基于查询机制的抽取式文档摘要自动生成方法、装置及系统 | |
US20230267916A1 (en) | Text-based virtual object animation generation method, apparatus, storage medium, and terminal | |
CN110633683A (zh) | 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法 | |
Lee et al. | Sound-guided semantic image manipulation | |
CN110675853B (zh) | 一种基于深度学习的情感语音合成方法及装置 | |
WO2023065617A1 (zh) | 基于预训练模型和召回排序的跨模态检索系统及方法 | |
Li et al. | Direct speech-to-image translation | |
CN110119444A (zh) | 一种抽取式与生成式相结合的公文摘要生成模型 | |
CN111259109B (zh) | 一种基于视频大数据的音频转视频的方法 | |
CN113344036A (zh) | 一种基于动态词嵌入的多模态Transformer的图像描述方法 | |
CN110866129A (zh) | 一种基于跨媒体统一表征模型的跨媒体检索方法 | |
CN113838174A (zh) | 一种音频驱动人脸动画生成方法、装置、设备与介质 | |
CN111916054A (zh) | 基于唇形的语音生成方法、装置和系统及存储介质 | |
CN118043884A (zh) | 音频和视频转换器 | |
CN115129934A (zh) | 一种多模态视频理解方法 | |
Li et al. | AMOA: Global acoustic feature enhanced modal-order-aware network for multimodal sentiment analysis | |
CN112329604B (zh) | 一种基于多维度低秩分解的多模态情感分析方法 | |
Lee et al. | Robust sound-guided image manipulation | |
CN112949284B (zh) | 一种基于Transformer模型的文本语义相似度预测方法 | |
CN117594036A (zh) | 一种基于视频大数据的音频转视频的方法 | |
Chandaran et al. | Image Captioning Using Deep Learning Techniques for Partially Impaired People | |
Hukkeri et al. | Erratic navigation in lecture videos using hybrid text based index point generation | |
Wang et al. | Video Captioning Based on Joint Image–Audio Deep Learning Techniques | |
Yu et al. | Text2Video: automatic video generation based on text scripts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210220 Address after: 518000 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 Floors Applicant after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd. Address before: 310012 no.2-10, north of building 13, 199 Wensan Road, Xihu District, Hangzhou City, Zhejiang Province Applicant before: Hangzhou Huichuan Intelligent Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |