CN116708916A - 一种数据处理方法、系统、存储介质及电子设备 - Google Patents

一种数据处理方法、系统、存储介质及电子设备 Download PDF

Info

Publication number
CN116708916A
CN116708916A CN202310697618.7A CN202310697618A CN116708916A CN 116708916 A CN116708916 A CN 116708916A CN 202310697618 A CN202310697618 A CN 202310697618A CN 116708916 A CN116708916 A CN 116708916A
Authority
CN
China
Prior art keywords
information
time
point
point position
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310697618.7A
Other languages
English (en)
Inventor
王文倩
杨杰
孙钱丽
陈凌驰
骆迅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Happly Sunshine Interactive Entertainment Media Co Ltd
Original Assignee
Hunan Happly Sunshine Interactive Entertainment Media Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Happly Sunshine Interactive Entertainment Media Co Ltd filed Critical Hunan Happly Sunshine Interactive Entertainment Media Co Ltd
Priority to CN202310697618.7A priority Critical patent/CN116708916A/zh
Publication of CN116708916A publication Critical patent/CN116708916A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • H04N21/4334Recording operations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本申请公开了一种数据处理方法、系统、存储介质及电子设备,获取第一点位信息和第二点位信息,第一点位信息为台词字幕的预设时间的点位信息,第二点位信息为视频中预设声音的预设时间的点位信息,预设声音至少包括歌声和/或进行对话的人声,通过预设整合方式,对第一点位信息和第二点位信息进行整合,得到旁白点位信息,旁白点位信息为无台词字幕,无预设声音且无非台词标记的时间点位信息,根据旁白点位信息进行有声剧的录制操作。

Description

一种数据处理方法、系统、存储介质及电子设备
技术领域
本申请涉及计算机自然语言处理技术领域,更具体地说,涉及一种数据处理方法、系统、存储介质及电子设备。
背景技术
现在市场上的有声剧产品,大多都是基于小说改编,由配音演员直接录制音频而成的,从改编剧本到最后录制成有声剧。
在录制成有声剧的过程中,需要人工在看完整个视频后,再手工进行旁白点位的挑选,在挑选出的旁白点位处配上旁白(指影视片中的解说词。说话者不出现在画面上,但直接以语言来介绍影片内容、交待剧情或发表议论等)以完成有声剧的录制,这样的过程需要消耗大量的人力和物力,从而导致在有声剧录制的效率低。
因此,如何提高录制有声剧的效率,是本申请亟需解决的问题。
发明内容
有鉴于此,本申请公开了一种数据处理方法、系统、存储介质及电子设备,旨在实现在录制成有声剧的过程中降低人力成本,提高录制有声剧的效率,自动化批量生成有声剧的目的。
为了实现上述目的,其公开的技术方案如下:
本申请第一方面公开了一种数据处理方法,所述方法包括:
获取第一点位信息和第二点位信息;所述第一点位信息为台词字幕的预设时间的点位信息;所述第二点位信息为视频中预设声音的预设时间的点位信息;所述预设声音至少包括歌声和/或进行对话的人声;
通过预设整合方式,对所述第一点位信息和所述第二点位信息进行整合,得到旁白点位信息;所述旁白点位信息为无台词字幕,无所述预设声音且无非台词标记的时间点位信息;
根据所述旁白点位信息进行有声剧的录制操作。
优选的,获取第一点位信息的过程,包括:
通过预设文本识别技术,识别视频中出现的所有字幕文本内容;
确定所有字幕文本内容在视频中的开始和结束的时间点位信息;
从所述时间点位信息中识别出当前台词字幕的开始时间和前一段台词字幕的结束时间;
当所述当前台词字幕的开始时间和所述前一段台词字幕的结束时间之间的差值大于预设时间时,将所述当前台词字幕的开始时间作为第一待插入旁白点位信息的点位开始时间,并将所述前一段台词字幕的结束时间作为第一待插入旁白点位信息的点位结束时间;
通过所述第一待插入旁白点位信息的点位开始时间和所述第一待插入旁白点位信息的点位结束时间,确定第一点位信息。
优选的,获取第二点位信息的过程,包括:
通过预设声音识别技术,识别视频中出现的所有声音信息;
确定所有声音信息在视频中的开始和结束的时间点位信息;
从所述时间点位信息中识别出当前预设声音的开始时间和前一段预设声音的结束时间;
当所述当前预设声音的开始时间和所述前一段预设声音的结束时间之间的差值大于预设时间时,将所述当前预设声音的开始时间作为第二待插入旁白点位信息的点位开始时间,并将所述前一段预设声音的结束时间作为第二待插入旁白点位信息的点位结束时间;
通过所述第二待插入旁白点位信息的点位开始时间和所述第二待插入旁白点位信息的点位结束时间,确定第二点位信息。
优选的,所述通过预设整合方式,对所述第一点位信息和第二点位信息进行整合,得到旁白点位信息,包括:
遍历所述第一点位信息是否包括非台词标记;
若第一点位信息的时间段中包括非台词标记,获取所述第一点位信息与所述第二点位信息之间的时间点位重合部分,并将所述时间重合部分确定为旁白点位信息;所述非台词标记为非中文字符且非英文字符的非台词标记;
若第一点位信息中的时间段中不包括非台词标记,将所述第一点位信息确定为旁白点位信息。
优选的,所述根据所述旁白点位信息进行有声剧的录制操作,包括:
将所述旁白点位信息插入视频的预设位置,完成有声剧的录制;所述预设位置为无台词字幕且所述旁白点位信息与视频画面相对应的位置。
本申请第二方面公开了一种数据处理系统,所述系统包括:
获取单元,用于获取第一点位信息和第二点位信息;所述第一点位信息为台词字幕的预设时间的点位信息;所述第二点位信息为视频中预设声音的预设时间的点位信息;所述预设声音至少包括歌声和/或进行对话的人声;
整合单元,用于通过预设整合方式,对所述第一点位信息和所述第二点位信息进行整合,得到旁白点位信息;所述旁白点位信息为无台词字幕,无所述预设声音且无非台词标记的时间点位信息;
录制操作单元,用于根据所述旁白点位信息进行有声剧的录制操作。
优选的,获取第一点位信息的获取单元,包括:
第一识别模块,用于通过预设文本识别技术,识别视频中出现的所有字幕文本内容;
第一确定模块,用于确定所有字幕文本内容在视频中的开始和结束的时间点位信息;
第二识别模块,用于从所述时间点位信息中识别出当前台词字幕的开始时间和前一段台词字幕的结束时间;
第一操作模块,用于当所述当前台词字幕的开始时间和所述前一段台词字幕的结束时间之间的差值大于预设时间时,将所述当前台词字幕的开始时间作为第一待插入旁白点位信息的点位开始时间,并将所述前一段台词字幕的结束时间作为第一待插入旁白点位信息的点位结束时间;
第二确定模块,用于通过所述第一待插入旁白点位信息的点位开始时间和所述第一待插入旁白点位信息的点位结束时间,确定第一点位信息。
优选的,获取第二点位信息的获取单元,包括:
第三识别模块,用于通过预设声音识别技术,识别视频中出现的所有声音信息;
第三确定模块,用于确定所有声音信息在视频中的开始和结束的时间点位信息;
第四识别模块,用于从所述时间点位信息中识别出当前预设声音的开始时间和前一段预设声音的结束时间;
第二操作模块,用于当所述当前预设声音的开始时间和所述前一段预设声音的结束时间之间的差值大于预设时间时,将所述当前预设声音的开始时间作为第二待插入旁白点位信息的点位开始时间,并将所述前一段预设声音的结束时间作为第二待插入旁白点位信息的点位结束时间;
第四确定模块,用于通过所述第二待插入旁白点位信息的点位开始时间和所述第二待插入旁白点位信息的点位结束时间,确定第二点位信息。
本申请第三方面公开了一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行如第一方面任意一项所述的数据处理方法。
本申请第四方面公开了一种电子设备,包括存储器,以及一个或者一个以上的指令,其中一个或者一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行如第一方面任意一项所述的数据处理方法。
经由上述技术方案可知,本申请公开了一种数据处理方法、系统、存储介质及电子设备,获取第一点位信息和第二点位信息,第一点位信息为台词字幕的预设时间的点位信息,第二点位信息为视频中预设声音的预设时间的点位信息,预设声音至少包括歌声和/或进行对话的人声,通过预设整合方式,对第一点位信息和第二点位信息进行整合,得到旁白点位信息,旁白点位信息为无台词字幕,无预设声音且无非台词标记的时间点位信息,根据旁白点位信息进行有声剧的录制操作。通过上述方案,在录制成有声剧的过程中,无需人工在看完整个视频后,手工进行旁白点位的挑选并在挑选出的旁白点位位置处配上旁白,只需通过预设整合方式,对第一点位信息和第二点位信息进行整合,来检测在视频中可以插入旁白点位信息的位置,实现了旁白点位信息的自动检测,根据旁白点位信息进行有声剧的录制操作,在录制成有声剧的过程中降低人力成本,提高录制有声剧的效率,实现自动化批量录制有声剧的目的。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例公开的一种数据处理方法的流程示意图;
图2为本申请实施例公开的旁白点位整合的示意图;
图3为本申请实施例公开的一种数据处理系统的结构示意图;
图4为本申请实施例公开的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
由背景技术可知,在录制成有声剧的过程中,需要人工在看完整个视频后,再手工进行旁白点位的挑选,在挑选出的旁白点位处配上旁白以完成有声剧的录制,这样的过程需要消耗大量的人力和物力,从而导致在有声剧录制的效率低。因此,如何提高录制有声剧的效率,是本申请亟需解决的问题。
为了解决上述问题,本申请公开了一种数据处理方法、系统、存储介质及电子设备,在录制成有声剧的过程中,无需人工在看完整个视频后,手工进行旁白点位的挑选并在挑选出的旁白点位位置处配上旁白,只需通过预设整合方式,对第一点位信息和第二点位信息进行整合,来检测在视频中可以插入旁白点位信息的位置,实现了旁白点位信息的自动检测,根据旁白点位信息进行有声剧的录制操作,在录制成有声剧的过程中降低人力成本,提高录制有声剧的效率,实现自动化批量录制有声剧的目的。具体实现方式通过下述实施例进行说明。
参考图1所示,为本申请实施例公开的一种数据处理方法,该数据处理方法主要包括如下步骤:
S101:获取第一点位信息和第二点位信息;第一点位信息为台词字幕的预设时间的点位信息;第二点位信息为视频中预设声音的预设时间的点位信息;预设声音至少包括歌声和/或进行对话的人声。
其中,台词字幕的预设时间的点位信息,即为当前台词字幕的开始时间和前一段台词字幕的结束时间的时间点位信息。比如,当前台词字幕的开始时间为00:05:08,前一段台词字幕的结束时间为00:05:04。
预设声音的预设时间的点位信息,即为当前预设声音的开始时间和前一段预设声音的结束时间的时间点位信息。比如,当前人声的开始时间为00:20:32,前一段人声的结束时间为00:20:17。
具体获取第一点位信息的过程如A1-A5所示。
A1:通过预设文本识别技术,识别视频中出现的所有字幕文本内容。
其中,预设文本识别技术可以是光学字符识别(OpticalCharacter Recognition,OCR)技术,也可以是其他文本识别技术,具体预设文本识别技术的确定本申请不做具体限定。本申请的预设文本识别技术优选OCR技术。
由于视频播放过程中,会展示演员表等相关信息,所以需要区分台词字幕和非台词字幕。字幕文本内容包括台词字幕和非台词字幕。台词字幕是指没有分隔符,且没有包含非中文字符和非英文字符的字幕。
在OCR的识别结果中,如果出现非中文字符、非英文字符,则视为非台词字幕,对非台词字幕进行标记,得到非台词标记。
为了方便理解台词字幕和非台词字幕,这里举例进行说明:
例如,视频中出现的字幕文本内容为:
{"event":"术写导|刘|TLETOR","period":[
149.0,
149.0]
},
{"event":"我没事","period":[
151.0,
151.0]
},
{"event":"今日已晚","period":[
152.0,
152.0
]
}。
其中,event对应的内容(如|、":"、151.0等)就是属于包含了存在分隔符、非中文字符或非英文字符的非台词字幕,而“我没事”和“今日已晚”就是台词字幕。
A2:确定所有字幕文本内容在视频中的开始和结束的时间点位信息。
在A2中,通过OCR技术识别出所有字幕文本内容在视频中的开始和结束的时间点位信息,点位信息以秒(s)为单位。
A3:从时间点位信息中识别出当前台词字幕的开始时间和前一段台词字幕的结束时间。
比如,两段台词字幕“今日已晚”和“我要睡了”。“今日已晚”为当前台词字幕,“我要睡了”为前一段台词字幕,当前台词字幕(我要睡了)的开始时间为23:02:35,前一段台词字幕(今日已晚)的结束时间为23:02:29。
A4:当当前台词字幕的开始时间和前一段台词字幕的结束时间之间的差值大于预设时间时,将当前台词字幕的开始时间作为第一待插入旁白点位信息的点位开始时间,并将前一段台词字幕的结束时间作为第一待插入旁白点位信息的点位结束时间。
其中,当前台词字幕的开始时间作为可插入视频中旁白点位的第一待插入旁白点位信息的点位开始时间;前一段台词字幕的结束时间作为可插入视频中旁白点位的第一待插入旁白点位信息的点位结束时间。
预设时间可以是4s、5s等,具体预设时间的确定本申请不做具体限定。
为了方便理解当当前台词字幕的开始时间和前一段台词字幕的结束时间之间的差值大于预设时间时,将当前台词字幕的开始时间作为第一待插入旁白点位信息的点位开始时间,并将前一段台词字幕的结束时间作为第一待插入旁白点位信息的点位结束时间这一过程,这里举例进行说明:
例如,预设时间设置为5s,“今日已晚”为当前台词字幕,“我要睡了”为前一段台词字幕,当前台词字幕(我要睡了)的开始时间为01:02:35,前一段台词字幕(今日已晚)的结束时间为01:02:29,将当前台词字幕的开始时间01:02:35与前一段台词字幕的结束时间01:02:29进行求差计算,得到差值为6s,差值6s大于预设时间5s,将当前台词字幕的开始时间01:02:35作为第一待插入旁白点位信息的点位开始时间,前一段台词字幕的结束时间01:02:29作为第一待插入旁白点位信息的点位结束时间。
A5:通过第一待插入旁白点位信息的点位开始时间和第一待插入旁白点位信息的点位结束时间,确定第一点位信息。
在A5中,通过第一待插入旁白点位信息的点位开始时间和第一待插入旁白点位信息的点位结束时间,输出结果为ocr_info,即第一点位信息,第一点位信息由第一待插入旁白点位信息的点位开始时间和第一待插入旁白点位信息的点位结束时间的时间对组成。
具体获取第二点位信息的过程如B1-B5所示。
B1:通过预设声音识别技术,识别视频中出现的所有声音信息。
其中,预设声音识别技术可以是背景音乐(BackGroundMusic,BGM)识别技术,也可以是其他类型的语音识别技术,具体预设声音识别技术的确定本申请不做具体限定。本申请的预设声音识别技术优选BGM识别技术。
所有声音信息包括人声、歌声、纯音乐等。
B2:确定所有声音信息在视频中的开始和结束的时间点位信息。
在B2中,通过BGM识别技术获取所有声音信息在视频中的开始时间和结束时间的时间点位信息。
B3:从时间点位信息中识别出当前预设声音的开始时间和前一段预设声音的结束时间。
其中,预设声音包括歌声和/或进行对话的人声。
B4:当当前预设声音的开始时间和前一段预设声音的结束时间之间的差值大于预设时间时,将当前预设声音的开始时间作为第二待插入旁白点位信息的点位开始时间,并将前一段预设声音的结束时间作为第二待插入旁白点位信息的点位结束时间。
其中,当前预设声音的开始时间作为可插入视频中旁白点位的第二待插入旁白点位信息的点位开始时间;前一段预设声音的结束时间作为可插入视频中旁白点位的第二待插入旁白点位信息的点位结束时间。
预设时间可以是4s、5s等,具体预设时间的确定本申请不做具体限定。
为了方便理解当当前预设声音的开始时间和前一段预设声音的结束时间之间的差值大于预设时间时,将当前预设声音的开始时间作为第二待插入旁白点位信息的点位开始时间,并将预设声音的结束时间作为第二待插入旁白点位信息的点位结束时间这一过程,这里举例进行说明:
例如,预设时间设置为5s,当前进行对话的人声的开始时间为00:05:35,前一段人声的结束时间为00:05:27,当前进行对话的人声的开始时间为00:05:35与前一段进行对话的人声的结束时间为00:05:27进行求差计算,得到差值为8s,差值8s大于预设时间5s,将当前进行对话的人声的开始时间为00:05:35作为第二待插入旁白点位信息的点位开始时间,前一段进行对话的人声的结束时间为00:05:27作为第二待插入旁白点位信息的点位结束时间。
B5:通过第二待插入旁白点位信息的点位开始时间和第二待插入旁白点位信息的点位结束时间,确定第二点位信息。
在B5中,通过第二待插入旁白点位信息的点位开始时间和第二待插入旁白点位信息的点位结束时间,输出结果为bgm_info,即第二点位信息,第二点位信息由第二待插入旁白点位信息的点位开始时间和第二待插入旁白点位信息的点位结束时间的时间对组成。
如果在第一点位信息中出现非台词(如广告、演员信息等),因此需要进行BGM识别,得到第二点位信息,通过第一点位信息和第二点位信息判断旁白点位信息。
S102:通过预设整合方式,对第一点位信息和第二点位信息进行整合,得到旁白点位信息;旁白点位信息为无台词字幕,无预设声音且无非台词标记的时间点位信息。
其中,预设整合方式由第一点位信息的时间段中是否包含非台词标记确定。
由于会存在第一点位信息中台词字幕和其他内容(如广告、演员信息等)一起出现的情况,可能会被误识别为非台词字幕,导致旁白点位判断错误,因此需要对第一点位信息和第二点位信息进行整合,一起判断旁白点位信息。
无非台词标记的时间点位信息即为没有受到非台词字幕干扰的时间点位信息。
第一点位信息中出现非台词字幕,比如,有的时候在演员说台词的同时出现了其他的演员信息或广告信息,就用分隔符隔开,但有时没有非台词字幕也会有OCR的识别结果(第一点位信息),因此需结合第一点位信息和第二点位信息一起判断,比如02:05:07-02:05:13这一段中没有识别到进行对话的人声,那么这一段就可以插入旁白点位信息。
具体通过预设整合方式,对第一点位信息和第二点位信息进行整合,得到旁白点位信息的过程,如C1-C3所示。
C1:遍历所述第一点位信息是否包括非台词标记。
C2:若第一点位信息的时间段中包括非台词标记,获取第一点位信息与第二点位信息之间的时间点位重合部分,并将时间重合部分确定为旁白点位信息;非台词标记为非中文字符且非英文字符的非台词标记。
为了方便理解若第一点位信息的时间段中包括非台词标记,获取第一点位信息与第二点位信息之间的时间点位重合部分,并将时间重合部分确定为旁白点位信息这一过程,这里举例进行说明:
例如,若第一点位信息的时间段中包括非台词标记,当前台词字幕的开始时间为01:02:38,前一段台词字幕的结束时间为01:02:29,第一点位信息的时间点位为01:02:29~01:02:38,第二点位信息的时间点位分别为当前预设声音的开始时间为01:02:35,前一段预设声音的结束时间为01:02:27,第二点位信息的时间点位为01:02:27~01:02:35,取第一点位信息和第二点位信息的时间点位重合部分为01:02:29~01:02:35,将重合部分的时间点位01:02:29~01:02:35确定为旁白点位信息。
C3:若第一点位信息中的时间段中不包括非台词标记,将第一点位信息确定为旁白点位信息。
其中,若第一点位信息中的时间段中不包括非台词标记,将包含第一待插入旁白点位信息的点位开始时间和第一待插入旁白点位信息的点位结束时间的时间对的第一点位信息确定为旁白点位信息。
旁白点位信息是指视频中的解说词。旁白点位信息是直接以语言来介绍影片、视频等内容、交待剧情或发表议论等的点位信息。
为了方便理解通过预设整合方式,对第一点位信息和第二点位信息进行整合,得到旁白点位信息的过程,结合图2进行说明,图2示出了旁白点位整合的示意图。图2仅为示例。
图2中,ocr_info为第一点位信息,ocr_info中的箭头即代表没有台词的点位;bgm_info为第二点位信息,bgm_info中的箭头即代表没有预设声音的点位;最终输出为旁白点位信息。最终输出旁白点位信息的是既没有台词也没有进行对话的人声,歌声,也没有非台词字幕干扰的时间点位信息。
图2中,ocr_info箭头上的三角形是表示非台词标记。
图2中,箭头的长短代表不同时长的时间段内各自(ocr_info、bgm_info、旁白点位信息)所对应的时间点位信息。时间点位以秒(S)为单位。时间点位的箭头开始为0s,结束为100s。
S103:根据旁白点位信息进行有声剧的录制操作。
在S103中,将旁白点位信息插入视频的预设位置,完成有声剧的录制;预设位置为无台词字幕且旁白点位信息与视频画面相对应的位置。
利用人工智能AI识别(bgm识别和ocr识别)技术,结合上述处理,可以自动检测旁白点位信息,在视频合适的预设位置自动配上旁白解说,由此来完成有声剧等视频的录制。
例如,将描述“下雪”场景的旁白点位信息“房顶上、大树上、地上全都铺上了白白的雪”,插入视频中无台词字幕且“下雪”的视频画面的位置。
还可根据旁白点位信息进行有声剧的自动化批量录制操作。
本申请实施例中,在录制成有声剧的过程中,无需人工在看完整个视频后,手工进行旁白点位的挑选并在挑选出的旁白点位位置处配上旁白,只需通过预设整合方式,对第一点位信息和第二点位信息进行整合,来检测在视频中可以插入旁白点位信息的位置,实现了旁白点位信息的自动检测,根据旁白点位信息进行有声剧的录制操作,在录制成有声剧的过程中降低人力成本,提高录制有声剧的效率,实现自动化批量录制有声剧的目的。
基于上述实施例图1公开的一种数据处理方法,本申请实施例还对应公开了一种数据处理系统,如图3所示,该数据处理系统包括获取单元301、整合单元302和录制操作单元303。
获取单元301,用于获取第一点位信息和第二点位信息;第一点位信息为台词字幕的预设时间的点位信息;第二点位信息为视频中预设声音的预设时间的点位信息;预设声音至少包括歌声和/或进行对话的人声。
整合单元302,用于通过预设整合方式,对第一点位信息和第二点位信息进行整合,得到旁白点位信息;旁白点位信息为无台词字幕,无预设声音且无非台词标记的时间点位信息。
录制操作单元303,用于根据旁白点位信息进行有声剧的录制操作。
进一步的,获取第一点位信息的获取单元301包括第一识别模块、第一确定模块、第二识别模块、第一操作模块和第二确定模块。
第一识别模块,用于通过预设文本识别技术,识别视频中出现的所有字幕文本内容。
第一确定模块,用于确定所有字幕文本内容在视频中的开始和结束的时间点位信息。
第二识别模块,用于从时间点位信息中识别出当前台词字幕的开始时间和前一段台词字幕的结束时间。
第一操作模块,用于当当前台词字幕的开始时间和前一段台词字幕的结束时间之间的差值大于预设时间时,将当前台词字幕的开始时间作为第一待插入旁白点位信息的点位开始时间,并将前一段台词字幕的结束时间作为第一待插入旁白点位信息的点位结束时间。
第二确定模块,用于通过第一待插入旁白点位信息的点位开始时间和第一待插入旁白点位信息的点位结束时间,确定第一点位信息。
进一步的,获取第二点位信息的获取单元301包括第三识别模块、第三确定模块、第四识别模块、第二操作模块和第四确定模块。
第三识别模块,用于通过预设声音识别技术,识别视频中出现的所有声音信息。
第三确定模块,用于确定所有声音信息在视频中的开始和结束的时间点位信息。
第四识别模块,用于从时间点位信息中识别出当前预设声音的开始时间和前一段预设声音的结束时间。
第二操作模块,用于当当前预设声音的开始时间和前一段预设声音的结束时间之间的差值大于预设时间时,将当前预设声音的开始时间作为第二待插入旁白点位信息的点位开始时间,并将前一段预设声音的结束时间作为第二待插入旁白点位信息的点位结束时间。
第四确定模块,用于通过第二待插入旁白点位信息的点位开始时间和第二待插入旁白点位信息的点位结束时间,确定第二点位信息。
进一步的,整合单元302包括遍历模块、第五确定模块和第六确定模块。
遍历模块,用于遍历所述第一点位信息是否包括非台词标记。
第五确定模块,用于若第一点位信息的时间段中包括非台词标记,获取第一点位信息与第二点位信息之间的时间点位重合部分,并将时间重合部分确定为旁白点位信息;非台词标记为非中文字符且非英文字符的非台词标记。
第六确定模块,用于若第一点位信息中的时间段中不包括非台词标记,将第一点位信息确定为旁白点位信息。
进一步的,录制操作单元303,具体用于将旁白点位信息插入视频的预设位置,完成有声剧的录制;预设位置为无台词字幕且旁白点位信息与视频画面相对应的位置。
本申请实施例中,在录制成有声剧的过程中,无需人工在看完整个视频后,手工进行旁白点位的挑选并在挑选出的旁白点位位置处配上旁白,只需通过预设整合方式,对第一点位信息和第二点位信息进行整合,来检测在视频中可以插入旁白点位信息的位置,实现了旁白点位信息的自动检测,根据旁白点位信息进行有声剧的录制操作,在录制成有声剧的过程中降低人力成本,提高录制有声剧的效率,实现自动化批量录制有声剧的目的。
本申请实施例还提供了一种存储介质,存储介质包括存储的指令,其中,在指令运行时控制存储介质所在的设备执行上述数据处理方法。
本申请实施例还提供了一种电子设备,其结构示意图如图4所示,具体包括存储器401,以及一个或者一个以上的指令402,其中一个或者一个以上指令402存储于存储器401中,且经配置以由一个或者一个以上处理器403执行所述一个或者一个以上指令402执行上述数据处理方法。
上述各个实施例的具体实施过程及其衍生方式,均在本申请的保护范围之内。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为聚类部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
获取第一点位信息和第二点位信息;所述第一点位信息为台词字幕的预设时间的点位信息;所述第二点位信息为视频中预设声音的预设时间的点位信息;所述预设声音至少包括歌声和/或进行对话的人声;
通过预设整合方式,对所述第一点位信息和所述第二点位信息进行整合,得到旁白点位信息;所述旁白点位信息为无台词字幕,无所述预设声音且无非台词标记的时间点位信息;
根据所述旁白点位信息进行有声剧的录制操作。
2.根据权利要求1所述的方法,其特征在于,获取第一点位信息的过程,包括:
通过预设文本识别技术,识别视频中出现的所有字幕文本内容;
确定所有字幕文本内容在视频中的开始和结束的时间点位信息;
从所述时间点位信息中识别出当前台词字幕的开始时间和前一段台词字幕的结束时间;
当所述当前台词字幕的开始时间和所述前一段台词字幕的结束时间之间的差值大于预设时间时,将所述当前台词字幕的开始时间作为第一待插入旁白点位信息的点位开始时间,并将所述前一段台词字幕的结束时间作为第一待插入旁白点位信息的点位结束时间;
通过所述第一待插入旁白点位信息的点位开始时间和所述第一待插入旁白点位信息的点位结束时间,确定第一点位信息。
3.根据权利要求1所述的方法,其特征在于,获取第二点位信息的过程,包括:
通过预设声音识别技术,识别视频中出现的所有声音信息;
确定所有声音信息在视频中的开始和结束的时间点位信息;
从所述时间点位信息中识别出当前预设声音的开始时间和前一段预设声音的结束时间;
当所述当前预设声音的开始时间和所述前一段预设声音的结束时间之间的差值大于预设时间时,将所述当前预设声音的开始时间作为第二待插入旁白点位信息的点位开始时间,并将所述前一段预设声音的结束时间作为第二待插入旁白点位信息的点位结束时间;
通过所述第二待插入旁白点位信息的点位开始时间和所述第二待插入旁白点位信息的点位结束时间,确定第二点位信息。
4.根据权利要求1所述的方法,其特征在于,所述通过预设整合方式,对所述第一点位信息和第二点位信息进行整合,得到旁白点位信息,包括:
遍历所述第一点位信息是否包括非台词标记;
若第一点位信息的时间段中包括非台词标记,获取所述第一点位信息与所述第二点位信息之间的时间点位重合部分,并将所述时间重合部分确定为旁白点位信息;所述非台词标记为非中文字符且非英文字符的非台词标记;
若第一点位信息中的时间段中不包括非台词标记,将所述第一点位信息确定为旁白点位信息。
5.根据权利要求1所述的方法,其特征在于,所述根据所述旁白点位信息进行有声剧的录制操作,包括:
将所述旁白点位信息插入视频的预设位置,完成有声剧的录制;所述预设位置为无台词字幕且所述旁白点位信息与视频画面相对应的位置。
6.一种数据处理系统,其特征在于,所述系统包括:
获取单元,用于获取第一点位信息和第二点位信息;所述第一点位信息为台词字幕的预设时间的点位信息;所述第二点位信息为视频中预设声音的预设时间的点位信息;所述预设声音至少包括歌声和/或进行对话的人声;
整合单元,用于通过预设整合方式,对所述第一点位信息和所述第二点位信息进行整合,得到旁白点位信息;所述旁白点位信息为无台词字幕,无所述预设声音且无非台词标记的时间点位信息;
录制操作单元,用于根据所述旁白点位信息进行有声剧的录制操作。
7.根据权利要求6所述的系统,其特征在于,获取第一点位信息的获取单元,包括:
第一识别模块,用于通过预设文本识别技术,识别视频中出现的所有字幕文本内容;
第一确定模块,用于确定所有字幕文本内容在视频中的开始和结束的时间点位信息;
第二识别模块,用于从所述时间点位信息中识别出当前台词字幕的开始时间和前一段台词字幕的结束时间;
第一操作模块,用于当所述当前台词字幕的开始时间和所述前一段台词字幕的结束时间之间的差值大于预设时间时,将所述当前台词字幕的开始时间作为第一待插入旁白点位信息的点位开始时间,并将所述前一段台词字幕的结束时间作为第一待插入旁白点位信息的点位结束时间;
第二确定模块,用于通过所述第一待插入旁白点位信息的点位开始时间和所述第一待插入旁白点位信息的点位结束时间,确定第一点位信息。
8.根据权利要求6所述的系统,其特征在于,获取第二点位信息的获取单元,包括:
第三识别模块,用于通过预设声音识别技术,识别视频中出现的所有声音信息;
第三确定模块,用于确定所有声音信息在视频中的开始和结束的时间点位信息;
第四识别模块,用于从所述时间点位信息中识别出当前预设声音的开始时间和前一段预设声音的结束时间;
第二操作模块,用于当所述当前预设声音的开始时间和所述前一段预设声音的结束时间之间的差值大于预设时间时,将所述当前预设声音的开始时间作为第二待插入旁白点位信息的点位开始时间,并将所述前一段预设声音的结束时间作为第二待插入旁白点位信息的点位结束时间;
第四确定模块,用于通过所述第二待插入旁白点位信息的点位开始时间和所述第二待插入旁白点位信息的点位结束时间,确定第二点位信息。
9.一种存储介质,其特征在于,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行如权利要求1至5任意一项所述的数据处理方法。
10.一种电子设备,其特征在于,包括存储器,以及一个或者一个以上的指令,其中一个或者一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行如权利要求1至5任意一项所述的数据处理方法。
CN202310697618.7A 2023-06-13 2023-06-13 一种数据处理方法、系统、存储介质及电子设备 Pending CN116708916A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310697618.7A CN116708916A (zh) 2023-06-13 2023-06-13 一种数据处理方法、系统、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310697618.7A CN116708916A (zh) 2023-06-13 2023-06-13 一种数据处理方法、系统、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN116708916A true CN116708916A (zh) 2023-09-05

Family

ID=87833578

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310697618.7A Pending CN116708916A (zh) 2023-06-13 2023-06-13 一种数据处理方法、系统、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN116708916A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117240983A (zh) * 2023-11-16 2023-12-15 湖南快乐阳光互动娱乐传媒有限公司 一种自动生成有声剧的方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117240983A (zh) * 2023-11-16 2023-12-15 湖南快乐阳光互动娱乐传媒有限公司 一种自动生成有声剧的方法及装置
CN117240983B (zh) * 2023-11-16 2024-01-26 湖南快乐阳光互动娱乐传媒有限公司 一种自动生成有声剧的方法及装置

Similar Documents

Publication Publication Date Title
JP4599244B2 (ja) 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体
CA2924065C (en) Content based video content segmentation
US8302010B2 (en) Transcript editor
US20060044955A1 (en) Apparatus, method, and computer program for processing information
CN101490762B (zh) 用于播放音频-视频内容的设备和方法
CN106021496A (zh) 视频搜索方法及视频搜索装置
CN101051514B (zh) 记录和复现装置与记录和复现方法
JP2001333379A (ja) オーディオ/ビデオ信号生成装置、及びオーディオ/ビデオ信号生成方法
US20200126559A1 (en) Creating multi-media from transcript-aligned media recordings
JP2007519987A (ja) 内部及び外部オーディオビジュアルデータの統合解析システム及び方法
CN110992993A (zh) 视频编辑方法、视频编辑装置、终端和可读存储介质
CN103077734A (zh) 录制的音频信号的时间对准
US7751681B2 (en) Time-series data recording device and time-series data recording method
CN116708916A (zh) 一种数据处理方法、系统、存储介质及电子设备
CN101188722A (zh) 影像记录再现装置
JP2009239729A (ja) コンテンツのシーン出現を通知する装置、方法およびプログラム
CN112114771A (zh) 一种演示文稿播放控制方法和装置
JP2004343488A (ja) 字幕挿入方法、字幕挿入システム、および字幕挿入プログラム
EP3839953A1 (en) Automatic caption synchronization and positioning
JPH1146343A (ja) 映像記録装置
CN107688792A (zh) 一种视频翻译方法及其系统
JP2007294020A (ja) 記録再生方法、記録再生装置、記録方法、記録装置、再生方法および再生装置
US20080240674A1 (en) Recording apparatus
JP4272611B2 (ja) 映像処理方法、映像処理装置、映像処理用プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体
US20110083151A1 (en) Method for recording a moving picture and broadcasting receiver enabling the method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination