CN116320622B - 一种广播电视新闻视频转图文稿制作系统和制作方法 - Google Patents

一种广播电视新闻视频转图文稿制作系统和制作方法 Download PDF

Info

Publication number
CN116320622B
CN116320622B CN202310554645.9A CN202310554645A CN116320622B CN 116320622 B CN116320622 B CN 116320622B CN 202310554645 A CN202310554645 A CN 202310554645A CN 116320622 B CN116320622 B CN 116320622B
Authority
CN
China
Prior art keywords
text
module
sub
video
segments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310554645.9A
Other languages
English (en)
Other versions
CN116320622A (zh
Inventor
朱婷婷
杨瀚
温序铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Sobey Digital Technology Co Ltd
Original Assignee
Chengdu Sobey Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Sobey Digital Technology Co Ltd filed Critical Chengdu Sobey Digital Technology Co Ltd
Priority to CN202310554645.9A priority Critical patent/CN116320622B/zh
Publication of CN116320622A publication Critical patent/CN116320622A/zh
Application granted granted Critical
Publication of CN116320622B publication Critical patent/CN116320622B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/441Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
    • H04N21/4415Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card using biometric characteristics of the user, e.g. by voice recognition or fingerprint scanning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/835Generation of protective data, e.g. certificates
    • H04N21/8352Generation of protective data, e.g. certificates involving content or source identification data, e.g. Unique Material Identifier [UMID]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Studio Circuits (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本发明公开了一种广播电视新闻视频转图文稿制作系统和制作方法,属于广播电视新闻媒资内容制作领域,包括:文本分析模块,用于提取输入视频的文本标签;多模态创作模块,用于将输入视频的语音文本内容分段,并为每个段落提取语义相关的关键帧,并生成多种风格的候选标题;多模态信息融合模块,用于基于入出点对齐关键帧、分段文本与文本标签以形成图文稿初稿,并在编辑工具中分段呈现;其中,每个段落除文本信息外,还配有相应的候选关键帧、文本标签,同时还呈现有整个图文稿的候选标题。本发明可以提升图文稿制作效率和增强图文稿可读性,填补空白。

Description

一种广播电视新闻视频转图文稿制作系统和制作方法
技术领域
本发明涉及广播电视新闻媒资内容制作领域,更为具体的,涉及一种广播电视新闻视频转图文稿制作系统和制作方法。
背景技术
随着计算机算力的提升以及相关视觉、NLP技术的成长,运用人工智能等技术为媒体机构和内容创作者提供通用型创作工具,提升内容生成与分发效率,助力媒体深度融合也逐渐成为一种趋势。在这种环境下,百度、知乎等各大厂商都相继推出了“图文转视频”的工具或功能。对内容创作者来说,市面上的这些“图文转视频”工具足以满足他们的需求,相关用户可以快速上手,借助“图文转视频”工具自动实现配音、字幕、画面的视频内容生产。
然而,要想提升传统主流媒体在新媒体领域的话语权和影响力,除“图文转视频”外,“视频转图文”能力也必不可少。地方电视台等传统主流媒体客户都有自己的新媒体传播矩阵(比如微信公众号、微博等),传播矩阵里不可避免的更多的是图文形式的稿件,纯靠人工将新闻视频转化为图文稿再进行分发耗时耗力,也容易丢失新闻的时效性。“视频转成图文稿”能力可以方便用户将电视新闻视频快速转化为图文稿件以在新媒体渠道进行传播,点对点推送到用户手中,提高新闻宣传的时效性和用户满意度。就目前调研情况来看,市面上还没有“视频转图文”的相关产品雏形。现有技术中,视频转图文稿的产品和相关技术存在空缺。并且,现有技术制作的图文稿存在可读性较差,制作效率低的技术问题。
发明内容
本发明的目的在于克服现有技术的不足,针对视频转图文稿产品和技术的空缺,提供一种广播电视新闻视频转图文稿制作系统和制作方法,提升图文稿制作效率,增强图文稿可读性,填补了空白。
本发明的目的是通过以下方案实现的:
一种广播电视新闻视频转图文稿制作系统,其特征在于,包括:
文本分析模块,用于提取输入视频的文本标签;
多模态创作模块,用于将输入视频的语音文本内容分段,并为每个段落提取语义相关的关键帧,并生成多种风格的候选标题;
多模态信息融合模块,用于基于入出点对齐关键帧、分段文本与文本标签以形成图文稿初稿,并在编辑工具中分段呈现;其中,每个段落除文本信息外,还配有相应的候选关键帧、文本标签,同时还呈现有整个图文稿的候选标题。
进一步地,所述文本分析模块包括语音识别结果分析子模块,用于对输入视频的语音识别结果进行分析,以提取相关文本标签。
进一步地,所述文本分析模块包括文本纠错子模块、标点补全子模块、实体提取子模块和关键词提取子模块中的一个或多个。
进一步地,所述多模态创作模块包括人脸识别子模块、转场识别子模块、场景识别子模块、同期声识别子模块、文本分段子模块、语义关键帧提取子模块和多风格标题生成子模块中的一个或多个。
进一步地,还包括训练数据模块,所述训练数据模块内的训练数据包括新闻视频数据和新闻文本数据;所述文本分析模块与多模态创作模块利用所述训练数据来优化和提升准确率。
一种广播电视新闻视频转图文稿制作方法,包括如下步骤:
S1,提取输入视频的文本标签;
S2,多模态创作:生成分段文本、相应关键帧和多种风格的候选标题;
S3,多模态信息融合:基于入出点对齐关键帧、分段文本与文本标签以形成图文稿初稿,并在编辑工具中分段呈现;其中,每个段落除文本信息外,还配有相应的候选关键帧、文本标签,同时还呈现整个图文稿的候选标题。
进一步地,在步骤S1中,所述提取输入视频的文本标签,包括子步骤:
S11,利用语音识别获得输入视频的语音文本;
S12,利用文本纠错子模块对S11中获得的语音文本进行纠错;
S13,利用标点补全子模块对S12中纠错后的语音文本进行标点补全;
S14,利用实体提取子模块提取S13中标点补全后的语音文本中的实体标签;
S15,利用关键词提取子模块提取S13中标点补全后的语音文本的关键词标签。
进一步地,在步骤S2中,所述生成分段文本、相应关键帧和多种风格的候选标题,包括子步骤:
S21,利用转场识别子模块将新闻视频分割为多个片段;
S22,利用同期声识别子模块判断S21中每个片段的音频是否为同期声;
S23,利用人脸识别子模块、场景识别子模块结合判断S21中每个片段是否为演播室;
S24,结合S23中演播室结果、S22中同期声结果,利用文本分段子模块对S13中标点补全后的语音文本进行分段,并给出每个段落的类别。
进一步地,在步骤S24中,所述结合S23中演播室结果、S22中同期声结果,利用文本分段子模块对S13中标点补全后的语音文本进行分段,并给出每个段落的类别,具体包括子步骤:
S241,将连续的演播室片段合并,并使其单独成段;
S242,将步骤S241中剩余非演播室片段中的连续同期声片段合并,并使其单独成段;
S243,对步骤S242中余下的连续的非演播室非同期声片段,利用文本分段子模块整合后,依据整合后的内容长度自适应地分段;
S244,给出新闻视频的所有分段结果以及每个段落的类别;
S245,对视频进行分析,为每个文本段提取语义关键帧,具体为:在每段文本对应的视频入出点内,结合相关人脸识别结果、文本标签提取结果,利用语义关键帧提取子模块为每个文段获得候选关键帧,输出的每个候选关键帧带有相应的置信度。
进一步地,所述类别包括“演播室”、“非演播室-同期声”、“非演播室-非同期声”。
本发明的有益效果包括:
(1)本发明填补了本领域市场产品空白和相应技术空缺。
(2)本发明利用多种智能技术,对广播电视新闻视频进行识别、提炼和分析,生成图文稿初稿,让编辑人员可以高效地在图文稿初稿上进行二次加工和编辑,极大提升图文稿制作效率。
(3)本发明利用多种智能技术对广播电视新闻进行分析和提炼创作,高效生成图文稿,并提供了多风格的候选标题、多角度的文本标签以及带置信度的候选关键帧,能够让编辑人员迅速了解新闻视频内容,将更多的精力投入到新闻视频的相应图文稿的二次加工和创作上,极大提升图文稿制作效率。其中,本发明的多模态创作模块利用NLP技术、视觉图像技术和语音技术将不可用的视频语音转换成可用的图文稿文本,并为每个文本段落赋予了与其语义相关的视频关键帧,避免了图不对文或文不对图的简单堆砌,增强了图文稿的可读性。其中,本发明将分析结果直接呈现在编辑工具中,分段呈现,每个段落除文本信息外,还配有相应的候选关键帧、文本标签等,同时还将呈现多风格的候选标题,加强了智能分析结果与编辑工具的联动,让编辑人员可以根据图文稿将要投放的新媒体渠道(如微信公众号、微博等)灵活且快速地进行关键帧的选择、标签、标题的选择以及相关段落文本的改写等。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的广播电视新闻视频转图文稿制作系统结构示意图;
图2为本发明实施例的广播电视新闻视频转图文稿制作方法流程示意图。
具体实施方式
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
为了解决背景中的技术问题,本发明提出一种广播电视新闻视频转图文稿制作系统和制作方法,旨在将信息通信、人工智能、大数据等方面的先进技术融入新闻信息生成、传播、服务全过程,驱动传统媒体加快转型升级,引领和带动媒体深度融合发展。
如图1所示,本发明实施例提供一种广播电视新闻视频转图文稿制作系统,包括:
文本分析模块,用于提取输入视频的文本标签;
多模态创作模块,用于将输入视频的语音文本内容分段,并为每个段落提取语义相关的关键帧,并生成多种风格的候选标题;
多模态信息融合模块,用于基于入出点对齐关键帧、分段文本与文本标签以形成图文稿初稿,并在编辑工具中分段呈现;其中,每个段落除文本信息外,还配有相应的候选关键帧、文本标签,同时还呈现有整个图文稿的候选标题;编辑人员在图文稿初稿上进行挑选和编辑,以完成对图文稿初稿的加工创作。
在实际应用过程中,文本分析模块包括语音识别结果分析子模块,用于对输入视频的语音识别结果进行分析,以提取相关文本标签。
在实际应用过程中,文本分析模块包括文本纠错子模块、标点补全子模块、实体提取子模块和关键词提取子模块中的一个或多个。
在实际应用过程中,多模态创作模块包括人脸识别子模块、转场识别子模块、场景识别子模块、同期声识别子模块、文本分段子模块、关键帧提取子模块和多风格标题生成子模块中的一个或多个。
在实际应用过程中,还包括训练数据模块,训练数据模块内的训练数据包括新闻视频数据和新闻文本数据;文本分析模块与多模态创作模块利用训练数据来优化和提升准确率。
如图2所示,本发明实施例提供一种广播电视新闻视频转图文稿制作方法,包括如下步骤:
S1,提取输入视频的相关文本标签;
S2,多模态创作:生成分段文本、相应关键帧和多种风格的候选标题;
S3,多模态信息融合:基于入出点对齐关键帧、分段文本与文本标签以形成图文稿初稿,并在编辑工具中分段呈现;其中,每个段落除文本信息外,还配有相应的候选关键帧、文本标签,同时还呈现整个图文稿的候选标题;编辑人员在图文稿初稿上进行挑选和编辑,以完成对图文稿初稿的加工创作。
在实际应用过程中,在步骤S1中,可以基于NLP智能技术对输入视频的语音识别结果进行分析,以提取实体、关键词等文本标签,提取输入视频的相关文本标签,具体包括子步骤:
S11,利用语音识别获得输入视频的语音文本;
S12,利用文本纠错子模块对S11中获得的语音文本进行纠错;
S13,利用标点补全子模块对S12中纠错后的语音文本进行标点补全;
S14,利用实体提取子模块提取S13中标点补全后的语音文本中的实体标签;
S15,利用关键词提取子模块提取S13中标点补全后的语音文本的关键词标签。
在实际应用过程中,在步骤S2中,生成分段文本、相应关键帧和多种风格的候选标题,可以基于NLP智能技术与视觉智能技术将输入视频的语音文本分段,并为每个段落提取语义相关的关键帧,具体包括子步骤:
S21,利用转场识别子模块将新闻视频分割为多个片段;
S22,利用同期声识别子模块判断S21中每个片段的音频是否为同期声;
S23,利用人脸识别子模块、场景识别子模块结合判断S21中每个片段是否为演播室;
S24,结合S23中演播室结果、S22中同期声结果,利用文本分段子模块对S13中标点补全后的语音文本进行分段,并给出每个段落的类别。
在实际应用过程中,在步骤S24中,结合S23中演播室结果、S22中同期声结果,利用文本分段子模块对S13中标点补全后的语音文本进行分段,并给出每个段落的类别,具体包括子步骤:
S241,将连续的演播室片段合并,并使其单独成段;
S242,将步骤S241中剩余非演播室片段中的连续同期声片段合并,并使其单独成段;
S243,对步骤S242中余下的连续的非演播室非同期声片段,利用文本分段子模块整合后,依据整合后的内容长度自适应地分段;
S244,给出新闻视频的所有分段结果以及每个段落的类别;
S245,对视频进行分析,为每个文本段提取语义关键帧,具体为:在每段文本对应的视频入出点内,结合相关人脸识别结果、文本标签提取结果,利用语义关键帧提取子模块为每个文段获得候选关键帧,输出的每个候选关键帧带有相应的置信度。
在实际应用过程中,类别包括“演播室”、“非演播室-同期声”、“非演播室-非同期声”。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
根据本发明实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的方法。
作为另一方面,本发明实施例还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。
上述技术方案只是本发明的一种实施方式,对于本领域内的技术人员而言,在本发明公开了应用方法和原理的基础上,很容易做出各种类型的改进或变形,而不仅限于本发明上述具体实施方式所描述的方法,因此前面描述的方式只是优选的,而并不具有限制性的意义。
除以上实例以外,本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例,各个实施例的特征可以互换或替换,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (7)

1.一种广播电视新闻视频转图文稿制作系统,其特征在于,包括:
文本分析模块,用于提取输入视频的文本标签;所述提取输入视频的文本标签,具体包括:
S11,利用语音识别获得输入视频的语音文本;
S12,利用文本纠错子模块对S11中获得的语音文本进行纠错;
S13,利用标点补全子模块对S12中纠错后的语音文本进行标点补全;
S14,利用实体提取子模块提取S13中标点补全后的语音文本中的实体标签;S15,利用关键词提取子模块提取S13中标点补全后的语音文本的关键词标签;
多模态创作模块,用于将输入视频的语音文本内容分段,并为每个段落提取语义相关的关键帧,并生成多种风格的候选标题;具体包括:
S21,利用转场识别子模块将新闻视频分割为多个片段;
S22,利用同期声识别子模块判断S21中每个片段的音频是否为同期声;
S23,利用人脸识别子模块、场景识别子模块结合判断S21中每个片段是否为演播室;
S24,结合S23中演播室结果、S22中同期声结果,利用文本分段子模块对S13中标点补全后的语音文本进行分段,并给出每个段落的类别;在步骤S24中,所述结合S23中演播室结果、S22中同期声结果,利用文本分段子模块对S13中标点补全后的语音文本进行分段,并给出每个段落的类别,具体包括子步骤:
S241,将连续的演播室片段合并,并使其单独成段;
S242,将步骤S241中剩余非演播室片段中的连续同期声片段合并,并使其单独成段;
S243,对步骤S242中余下的连续的非演播室非同期声片段,利用文本分段子模块整合后,依据整合后的内容长度自适应地分段;
S244,给出新闻视频的所有分段结果以及每个段落的类别;
S245,对视频进行分析,为每个文本段提取语义关键帧,具体为:
在每段文本对应的视频入出点内,结合相关人脸识别结果、文本标签提取结果,利用语义关键帧提取子模块为每个文段获得候选关键帧,输出的每个候选关键帧带有相应的置信度;
多模态信息融合模块,用于基于入出点对齐关键帧、分段文本与文本标签以形成图文稿初稿,并在编辑工具中分段呈现;其中,每个段落除文本信息外,还配有相应的候选关键帧、文本标签,同时还呈现有整个图文稿的候选标题。
2.根据权利要求1所述的广播电视新闻视频转图文稿制作系统,其特征在于,所述文本分析模块包括语音识别结果分析子模块,用于对输入视频的语音识别结果进行分析,以提取相关文本标签。
3.根据权利要求1或2任一项所述的广播电视新闻视频转图文稿制作系统,其特征在于,所述文本分析模块包括文本纠错子模块、标点补全子模块、实体提取子模块和关键词提取子模块中的一个或多个。
4.根据权利要求1所述的广播电视新闻视频转图文稿制作系统,其特征在于,所述多模态创作模块包括人脸识别子模块、转场识别子模块、场景识别子模块、同期声识别子模块、文本分段子模块、语义关键帧提取子模块和多风格标题生成子模块中的一个或多个。
5.根据权利要求1所述的广播电视新闻视频转图文稿制作系统,其特征在于,还包括训练数据模块,所述训练数据模块内的训练数据包括新闻视频数据和新闻文本数据;所述文本分析模块与多模态创作模块利用所述训练数据来优化和提升准确率。
6.一种广播电视新闻视频转图文稿制作方法,其特征在于,包括如下步骤:
S1,提取输入视频的文本标签;在步骤S1中,所述提取输入视频的文本标签,包括子步骤:
S11,利用语音识别获得输入视频的语音文本;
S12,利用文本纠错子模块对S11中获得的语音文本进行纠错;
S13,利用标点补全子模块对S12中纠错后的语音文本进行标点补全;
S14,利用实体提取子模块提取S13中标点补全后的语音文本中的实体标签;S15,利用关键词提取子模块提取S13中标点补全后的语音文本的关键词标签;
S2,多模态创作:生成分段文本、相应关键帧和多种风格的候选标题;
在步骤S2中,所述生成分段文本、相应关键帧和多种风格的候选标题,包括子步骤:
S21,利用转场识别子模块将新闻视频分割为多个片段;
S22,利用同期声识别子模块判断S21中每个片段的音频是否为同期声;
S23,利用人脸识别子模块、场景识别子模块结合判断S21中每个片段是否为演播室;
S24,结合S23中演播室结果、S22中同期声结果,利用文本分段子模块对S13中标点补全后的语音文本进行分段,并给出每个段落的类别;
在步骤S24中,所述结合S23中演播室结果、S22中同期声结果,利用文本分段子模块对S13中标点补全后的语音文本进行分段,并给出每个段落的类别,具体包括子步骤:
S241,将连续的演播室片段合并,并使其单独成段;
S242,将步骤S241中剩余非演播室片段中的连续同期声片段合并,并使其单独成段;
S243,对步骤S242中余下的连续的非演播室非同期声片段,利用文本分段子模块整合后,依据整合后的内容长度自适应地分段;
S244,给出新闻视频的所有分段结果以及每个段落的类别;
S245,对视频进行分析,为每个文本段提取语义关键帧,具体为:在每段文本对应的视频入出点内,结合相关人脸识别结果、文本标签提取结果,利用语义关键帧提取子模块为每个文段获得候选关键帧,输出的每个候选关键帧带有相应的置信度;
S3,多模态信息融合:基于入出点对齐关键帧、分段文本与文本标签以形成图文稿初稿,并在编辑工具中分段呈现;其中,每个段落除文本信息外,还配有相应的候选关键帧、文本标签,同时还呈现整个图文稿的候选标题。
7.根据权利要求6所述的广播电视新闻视频转图文稿制作方法,其特征在于,所述类别包括“演播室”、“非演播室-同期声”、“非演播室-非同期声”。
CN202310554645.9A 2023-05-17 2023-05-17 一种广播电视新闻视频转图文稿制作系统和制作方法 Active CN116320622B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310554645.9A CN116320622B (zh) 2023-05-17 2023-05-17 一种广播电视新闻视频转图文稿制作系统和制作方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310554645.9A CN116320622B (zh) 2023-05-17 2023-05-17 一种广播电视新闻视频转图文稿制作系统和制作方法

Publications (2)

Publication Number Publication Date
CN116320622A CN116320622A (zh) 2023-06-23
CN116320622B true CN116320622B (zh) 2023-08-18

Family

ID=86781851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310554645.9A Active CN116320622B (zh) 2023-05-17 2023-05-17 一种广播电视新闻视频转图文稿制作系统和制作方法

Country Status (1)

Country Link
CN (1) CN116320622B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102547407A (zh) * 2011-12-30 2012-07-04 成都优联华胜信息技术有限公司 稿件内容嵌入视频实现文稿同视频关联的方法
EP3185135A1 (en) * 2015-12-21 2017-06-28 Thomson Licensing Method for generating a synopsis of an audio visual content and apparatus performing the same
CN107657990A (zh) * 2017-09-22 2018-02-02 中国科学院重庆绿色智能技术研究院 一种手术记录录入的辅助支持系统及方法
CN109635154A (zh) * 2018-12-14 2019-04-16 成都索贝数码科技股份有限公司 一种基于文稿和新闻节目自动生成互联网图文稿件的方法
CN110598651A (zh) * 2019-09-17 2019-12-20 腾讯科技(深圳)有限公司 一种信息处理方法、装置及存储介质
CN111931775A (zh) * 2020-09-28 2020-11-13 成都索贝数码科技股份有限公司 自动获取新闻标题方法、系统、计算机设备及存储介质
CN112183249A (zh) * 2020-09-14 2021-01-05 北京神州泰岳智能数据技术有限公司 一种视频处理方法和装置
US10999566B1 (en) * 2019-09-06 2021-05-04 Amazon Technologies, Inc. Automated generation and presentation of textual descriptions of video content
CN113450773A (zh) * 2021-05-11 2021-09-28 多益网络有限公司 视频记录文稿生成方法、装置、存储介质以及电子设备
CN113779310A (zh) * 2021-09-10 2021-12-10 电子科技大学 一种基于层级表征网络的视频理解文本生成方法
WO2022082063A1 (en) * 2020-10-15 2022-04-21 Pramod Sharma Visually expressive creation and collaboration and asyncronous multimodal communciation for documents
CN114943921A (zh) * 2022-05-31 2022-08-26 西安电子科技大学 一种融合多粒度视频语义信息的视频文本描述方法
CN115205758A (zh) * 2022-07-29 2022-10-18 招商局金融科技有限公司 基于视频与文本的智能转换方法、装置、电子设备及介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI244005B (en) * 2001-09-13 2005-11-21 Newsoft Technology Corp Book producing system and method and computer readable recording medium thereof
US7835578B2 (en) * 2006-04-19 2010-11-16 Sarnoff Corporation Automated video-to-text system
US9064538B2 (en) * 2011-04-07 2015-06-23 Infosys Technologies, Ltd. Method and system for generating at least one of: comic strips and storyboards from videos
US9892194B2 (en) * 2014-04-04 2018-02-13 Fujitsu Limited Topic identification in lecture videos
TWI553494B (zh) * 2015-11-04 2016-10-11 創意引晴股份有限公司 基於多模態融合之智能高容錯視頻識別系統及其識別方法
US10623829B2 (en) * 2018-09-07 2020-04-14 Oath Inc. Systems and methods for multimodal multilabel tagging of video
US20220115020A1 (en) * 2020-10-12 2022-04-14 Soundhound, Inc. Method and system for conversation transcription with metadata
CN115376033A (zh) * 2021-05-20 2022-11-22 阿里巴巴新加坡控股有限公司 信息生成方法及装置

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102547407A (zh) * 2011-12-30 2012-07-04 成都优联华胜信息技术有限公司 稿件内容嵌入视频实现文稿同视频关联的方法
EP3185135A1 (en) * 2015-12-21 2017-06-28 Thomson Licensing Method for generating a synopsis of an audio visual content and apparatus performing the same
CN107657990A (zh) * 2017-09-22 2018-02-02 中国科学院重庆绿色智能技术研究院 一种手术记录录入的辅助支持系统及方法
CN109635154A (zh) * 2018-12-14 2019-04-16 成都索贝数码科技股份有限公司 一种基于文稿和新闻节目自动生成互联网图文稿件的方法
US10999566B1 (en) * 2019-09-06 2021-05-04 Amazon Technologies, Inc. Automated generation and presentation of textual descriptions of video content
CN110598651A (zh) * 2019-09-17 2019-12-20 腾讯科技(深圳)有限公司 一种信息处理方法、装置及存储介质
CN112183249A (zh) * 2020-09-14 2021-01-05 北京神州泰岳智能数据技术有限公司 一种视频处理方法和装置
CN111931775A (zh) * 2020-09-28 2020-11-13 成都索贝数码科技股份有限公司 自动获取新闻标题方法、系统、计算机设备及存储介质
WO2022082063A1 (en) * 2020-10-15 2022-04-21 Pramod Sharma Visually expressive creation and collaboration and asyncronous multimodal communciation for documents
CN113450773A (zh) * 2021-05-11 2021-09-28 多益网络有限公司 视频记录文稿生成方法、装置、存储介质以及电子设备
CN113779310A (zh) * 2021-09-10 2021-12-10 电子科技大学 一种基于层级表征网络的视频理解文本生成方法
CN114943921A (zh) * 2022-05-31 2022-08-26 西安电子科技大学 一种融合多粒度视频语义信息的视频文本描述方法
CN115205758A (zh) * 2022-07-29 2022-10-18 招商局金融科技有限公司 基于视频与文本的智能转换方法、装置、电子设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Multi-Modal Learning with Text Merging for TEXTVQA;Changsheng Xu 等;《IEEE》;全文 *

Also Published As

Publication number Publication date
CN116320622A (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
US11776267B2 (en) Intelligent cataloging method for all-media news based on multi-modal information fusion understanding
CN109756751B (zh) 多媒体数据处理方法及装置、电子设备、存储介质
CN101616264B (zh) 新闻视频编目方法及系统
CN109635154B (zh) 一种基于文稿和新闻节目自动生成互联网图文稿件的方法
CN103984772A (zh) 文本检索字幕库生成方法和装置、视频检索方法和装置
CN110516203B (zh) 争议焦点分析方法、装置、电子设备及计算机可存储介质
CN114419387A (zh) 基于预训练模型和召回排序的跨模态检索系统及方法
CN103607635A (zh) 一种字幕识别方法、装置和终端
CN111666446B (zh) 一种ai自动剪辑视频素材的判断方法和系统
US10595098B2 (en) Derivative media content systems and methods
US10499121B2 (en) Derivative media content systems and methods
CN112565820B (zh) 一种视频新闻拆分方法和装置
CN116320622B (zh) 一种广播电视新闻视频转图文稿制作系统和制作方法
CN109800326B (zh) 一种视频处理方法、装置、设备和存储介质
Haloi et al. Unsupervised story segmentation and indexing of broadcast news video
KR20220079029A (ko) 문서 기반 멀티 미디어 콘텐츠 자동 제작 서비스 제공 방법
Series Artificial intelligence systems for programme production and exchange
KR102435242B1 (ko) 음성 정보의 영상 리소스 매칭을 이용한 멀티미디어 변환 콘텐츠 제작 서비스 제공 장치
JP2002014973A (ja) 映像検索装置、方法、映像検索プログラムを記録した記録媒体
JP4305921B2 (ja) 動画像話題分割方法
KR20220130860A (ko) 음성정보를 멀티미디어 비디오 콘텐츠로 변환하는 서비스 제공장치의 동작방법
CN105120338A (zh) 一种处理电视节目图片的方法和装置
KR20220130861A (ko) 음성을 영상 리소스 매칭에 기반하여 멀티미디어 콘텐츠로 변환하는 제작 서비스 제공 방법
KR20220130862A (ko) 음성 정보를 멀티미디어 콘텐츠로 변환하는 제작 서비스 제공 장치
KR20220079042A (ko) 서비스 제공 프로그램 기록매체

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant