CN111901538B - 一种字幕生成方法、装置、设备及存储介质 - Google Patents

一种字幕生成方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111901538B
CN111901538B CN202010719394.1A CN202010719394A CN111901538B CN 111901538 B CN111901538 B CN 111901538B CN 202010719394 A CN202010719394 A CN 202010719394A CN 111901538 B CN111901538 B CN 111901538B
Authority
CN
China
Prior art keywords
display time
audio
segment
character
subtitle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010719394.1A
Other languages
English (en)
Other versions
CN111901538A (zh
Inventor
曾衍
常为益
付平非
郑起凡
林兆钦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN202010719394.1A priority Critical patent/CN111901538B/zh
Publication of CN111901538A publication Critical patent/CN111901538A/zh
Priority to EP21845741.4A priority patent/EP4171018A4/en
Priority to PCT/CN2021/107845 priority patent/WO2022017459A1/zh
Priority to US18/087,631 priority patent/US11837234B2/en
Application granted granted Critical
Publication of CN111901538B publication Critical patent/CN111901538B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4396Processing of audio elementary streams by muting the audio signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47205End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for manipulating displayed content, e.g. interacting with MPEG-4 objects, editing locally
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Acoustics & Sound (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Studio Circuits (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本公开提供了一种字幕生成方法、装置、设备及存储介质,所述方法包括:在接收到针对目标音视频文件中至少一个音频轨道的字幕生成触发操作时,分别对该至少一个音频轨道中的每个音频轨道上的音频数据进行语音识别,得到每个音频轨道对应的文字片段。然后,基于每个音频轨道对应的文字片段,生成目标音视频文件的字幕。与针对所有音频轨道上的音频数据进行整体语音识别相比,本公开实施例针对每个音频轨道上的音频数据分别进行独立的语音识别,避免了音频轨道彼此之间的影响,能够得到更准确的语音识别结果,进而提高了基于语音识别结果生成的字幕的准确性。

Description

一种字幕生成方法、装置、设备及存储介质
技术领域
本公开涉及数据处理领域,尤其涉及一种字幕生成方法、装置、设备及存储介质。
背景技术
为音视频文件生成字幕,是指对音视频文件进行语音识别,并将识别结果作为该音视频文件的字幕。
目前,音视频文件的字幕是针对音视频文件中所有音频轨道上的音频数据进行整体语音识别后得到的识别结果。由于每个音频轨道上的音频数据彼此之间可能存在影响,例如在同一时间段,多个音频轨道上可能均存在音频数据,从听觉感受角度而言,可能存在听不清楚的问题,而如果针对该时间段的所有音频轨道上的音频数据进行整体识别,则可能存在识别不准确的问题,进而导致为音视频文件生成的字幕也存在不准确的问题。
因此,如何提高为音视频文件生成的字幕的准确性,是目前亟需解决的技术问题。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种字幕生成方法、装置、设备及存储介质,能够提高为音视频文件生成的字幕的准确性。
第一方面,本公开提供了一种字幕生成方法,所述方法包括:
响应于针对目标音视频文件中至少一个音频轨道的字幕生成触发操作,分别对所述至少一个音频轨道中每个音频轨道上的音频数据进行语音识别,得到每个音频轨道对应的文字片段;
基于每个音频轨道对应的文字片段,生成所述目标音视频文件的字幕。
一种可选的实施方式中,所述文字片段具有开始显示时间和结束显示时间;基于每个音频轨道对应的文字片段,生成所述目标音视频文件的字幕,包括:
基于每个文字片段的所述开始显示时间,对每个音频轨道对应的文字片段进行综合排序;
判断综合排序后的相邻文字片段中前一个文字片段的结束显示时间是否晚于后一个文字片段的开始显示时间;
如果所述前一个文字片段的结束显示时间晚于所述后一个文字片段的开始显示时间,则对所述前一个文字片段进行显示时间压缩,以使所述前一个文字片段的结束显示时间不晚于所述后一个文字片段的开始显示时间;
基于时间轴对各个文字片段进行合并,生成所述目标音视频文件的字幕。
一种可选的实施方式中,所述在所述基于时间轴对每个文字片段进行合并,生成所述目标音视频文件的字幕之前,还包括:
确定所述开始显示时间相同的文字片段中,所述结束显示时间最晚的文字片段;
将所述开始显示时间相同的文字片段中,除所述结束显示时间最晚的文字片段之外的其他文字片段删除。
一种可选的实施方式中,所述方法还包括:
响应于针对所述字幕的调整操作,对所述字幕进行更新;其中,所述调整操作包括增加操作、删除操作或修改操作。
一种可选的实施方式中,所述基于每个音频轨道对应的文字片段,生成所述目标音视频文件的字幕之后,还包括:
基于所述目标音视频文件的变速播放倍数,对所述目标音视频文件的字幕进行显示时间压缩。
第二方面,本公开提供了一种字幕生成装置,所述装置包括:
识别模块,用于响应于针对目标音视频文件中至少一个音频轨道的字幕生成触发操作,分别对所述至少一个音频轨道中每个音频轨道上的音频数据进行语音识别,得到每个音频轨道对应的文字片段;
生成模块,用于基于每个音频轨道对应的文字片段,生成所述目标音视频文件的字幕。
一种可选的实施方式中,所述文字片段具有开始显示时间和结束显示时间;
所述生成模块,包括:
排序子模块,用于基于每个文字片段的所述开始显示时间,对每个音频轨道对应的文字片段进行综合排序;
判断子模块,用于判断综合排序后的相邻文字片段中前一个文字片段的结束显示时间是否晚于后一个文字片段的开始显示时间;
压缩子模块,用于在所述前一个文字片段的结束显示时间晚于所述后一个文字片段的开始显示时间时,对所述前一个文字片段进行显示时间压缩,以使所述前一个文字片段的结束显示时间不晚于所述后一个文字片段的开始显示时间;
生成子模块,用于基于时间轴对各个文字片段进行合并,生成所述目标音视频文件的字幕。
一种可选的实施方式中,所述装置还包括:
确定模块,用于确定所述开始显示时间相同的文字片段中,所述结束显示时间最晚的文字片段;
删除模块,用于将所述开始显示时间相同的文字片段中,除所述结束显示时间最晚的文字片段之外的其他文字片段删除。
第三方面,本公开提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备实现上述的方法。
第四方面,本公开提供了一种设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述的方法。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
本公开实施例提供了一种字幕生成方法,在接收到针对目标音视频文件中至少一个音频轨道的字幕生成触发操作时,分别对该至少一个音频轨道中的每个音频轨道上的音频数据进行语音识别,得到每个音频轨道对应的文字片段。然后,基于每个音频轨道对应的文字片段,生成目标音视频文件的字幕。与针对所有音频轨道上的音频数据进行整体语音识别相比,本公开实施例针对每个音频轨道上的音频数据分别进行独立的语音识别,避免了音频轨道彼此之间的影响,能够得到更准确的语音识别结果,进而提高了基于语音识别结果生成的字幕的准确性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的一种字幕生成方法的流程图;
图2为本公开实施例提供的一种字幕生成界面的示意图;
图3为本公开实施例提供的一种对文字片段进行处理的示意图;
图4为本公开实施例提供的一种字幕显示界面的示意图;
图5为本公开实施例提供的另一种字幕显示界面的示意图;
图6为本公开实施例提供的一种字幕生成装置结构框图;
图7为本公开实施例提供的一种字幕生成设备结构框图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
目前,音视频文件的字幕是针对音视频文件中所有音频轨道上的音频数据进行整体语音识别后得到的识别结果,但是,每个音频轨道上的音频数据彼此之间可能存在影响,导致对音视频文件进行整体语音识别可能存在不准确的问题。
因此,本公开实施例提供了一种字幕生成方法,能够针对每个音频轨道上的音频数据分别进行独立的语音识别,避免了音频轨道彼此之间的影响,提高了语音识别结果的准确性,进而基于准确性更高的语音识别结果,能够生成准确性更高的音视频文件的字幕。
具体的,本公开实施例提供的字幕生成方法中,在接收到针对目标音视频文件中至少一个音频轨道的字幕生成触发操作时,分别对该至少一个音频轨道中的每个音频轨道上的音频数据进行语音识别,得到每个音频轨道对应的文字片段。然后,基于每个音频轨道对应的文字片段,生成目标音视频文件的字幕。
基于此,本公开实施例提供了一种字幕生成方法,参考图1,为本公开实施例提供的一种字幕生成方法的流程图,该方法包括:
S101:响应于针对目标音视频文件中至少一个音频轨道的字幕生成触发操作,分别对所述至少一个音频轨道中每个音频轨道上的音频数据进行语音识别,得到每个音频轨道对应的文字片段。
本公开实施例中的目标音视频文件可以为音频文件,也可以为视频文件。
实际应用中,目标音视频文件通常包括多个音频轨道,本公开实施例可以针对一个或多个音频轨道触发对目标音视频文件的字幕生成。
一种可选的实施方式中,如图2所示,为本公开实施例提供的一种字幕生成界面的示意图,其中,用户可以通过选中界面中展示的一个或多个音频轨道,然后点击“生成字幕”按钮触发针对选中的一个或多个音频轨道为目标音视频文件生成字幕的操作。
本公开实施例中,在接收到针对目标音视频文件中至少一个音频轨道的字幕生成触发操作时,确定该至少一个音频轨道中每个音频轨道上的音频数据,然后对每个音频轨道上的音频数据进行语音识别,得到每个音频轨道对应的文字片段。具体的语音识别方式本公开实施例不再赘述。
一种可选的实施方式中,由于一条音频轨道上的音频数据通常包括多个音频片段,针对每个音频片段进行语音识别后得到对应的文字片段,由属于同一条音频轨道的音频片段分别对应的文字片段构成该音频轨道对应的文字片段。在针对被选中的至少一个音频轨道中的每条音频轨道上的音频数据均完成语音识别后,得到每条音频轨道对应的文字片段。
S102:基于每个音频轨道对应的文字片段,生成所述目标音视频文件的字幕。
本公开实施例中,在获得目标音视频文件中每个音频轨道对应的文字片段之后,基于时间轴对各个文字片段进行合并,生成目标音视频文件的字幕。
实际应用中,由于音频轨道上的每个音频片段具有开始时间和结束时间,相应的,音频片段对应的文字片段具有开始显示时间和结束显示时间,具体的,音频片段的开始时间作为该音频片段对应的文字片段的开始显示时间,同时,音频片段的结束时间作为该音频片段对应的文字片段的结束显示时间。
由于各个文字片段的显示时间(即从开始显示时间到结束显示时间的时间段)可能存在重合,因此,本公开实施例在对各个文字片段进行合并之前,首先对各个文字片段进行预处理,以便于后续对各个文字片段的合并。
一种可选的实施方式中,为了便于对各个文字片段的处理,在对各个文字片段进行合并之前,首先基于每个文字片段的开始显示时间,对每个音频轨道对应的文字片段进行综合排序。通常开始显示时间越早的文字片段位于综合排序的位置越靠前。
由于综合排序后相邻的文字片段之间可能存在显示时间的重合,因此,针对综合排序后相邻的文字片段,本公开实施例需要判断前一个文字片段的结束显示时间是否晚于后一个文字片段的开始显示时间,如果前一个文字片段的结束显示时间不晚于后一个文字片段的开始显示时间,则说明前一个文字片段与后一个文字片段的显示时间不存在重合。相反的,如果前一个文字片段的结束显示时间晚于后一个文字片段的开始显示时间,则说明前一个文字片段与后一个文字片段的显示时间存在重合,此时,需要对前一个文字片段进行显示时间压缩,以使前一个文字片段的结束显示时间不晚于后一个文字片段的开始显示时间,避免前一个文字片段与后一个文字片段的显示时间存在重合。
如图3所述,为本公开实施例提供的一种对文字片段进行处理的示意图。其中,目标音视频文件中被选中的音频轨道包括轨道A、轨道B和轨道C,针对轨道A、轨道B和轨道C分别对应的文字片段,基于每个文字片段的开始显示时间进行排序,如图3所示,轨道A对应的文字片段1的开始显示时间最早,其次是轨道B对应的文字片段2,以此类推,基于开始显示时间对轨道A、轨道B和轨道C分别对应的文字片段进行综合排序。
针对综合排序后相邻的文字片段,判断前一个文字片段的结束显示时间是否不晚于后一个文字片段的开始显示时间,如图3所示,文字片段1和文字片段2为综合排序后相邻的文字片段,显然,文字片段1的结束显示时间晚于文字片段2的开始显示时间,导致文字片段1与文字片段2的显示时间存在重合,因此,本公开实施例对文字片段1进行显示时间压缩,将文字片段1的结束显示时间更新为文字片段2的开始显示时间,以避免文字片段1与文字片段2的显示时间存在重合。其中,显示时间压缩是指在更短的显示时间内完成对相同文字片段的显示。例如,图3中的文字片段1“这句话这么长”需要在显示时间压缩后的时间段内进行显示。
本公开实施例中,在对文字片段进行上述预处理后,基于时间轴对各个文字片段进行合并,生成目标音视频文件的字幕。如图3所示,轨道A对应的文字片段1“这句话这么长”与轨道B对应的文字片段2“一二三四五”进行合并后,生成最终选取位置的字幕。
另一种可选的实施方式中,在对各个文字片段进行合并之前,确定开始显示时间相同的文字片段,如果开始显示时间相同的文字片段的结束显示时间不同,则确定结束显示时间最晚的文字片段,用于生成目标音视频文件的字幕,而针对开始显示时间相同的文字片段中除该结束显示时间最晚的文字片段之外的其他文字片段删除即可。本公开实施例基于开始显示时间相同的文字片段中结束显示时间最晚的文字片段生成字幕,即基于显示时间较长的文字片段生成字幕,能够尽量避免字幕内容的丢失。
另一种可选的实施方式中,在删除开始显示时间相同的文字片段中除结束显示时间最晚的文字片段之外的其他文字片段之后,继续执行基于每个文字片段的所述开始显示时间,对每个音频轨道对应的文字片段进行综合排序的步骤,经过对各个文字片段的上述预处理操作后,生成目标音视频文件的字幕。
可以理解的是,如果目标音视频文件中仅一条音频轨道被选中用于为目标音视频文件生成字幕,则各个文字片段不存在显示时间重复的问题,因此不需要对各个文字片段进行合并,直接将该音频轨道对应的文字片段作为该目标音视频文件的字幕即可。
本公开实施例提供的字幕生成方法中,在接收到针对目标音视频文件中至少一个音频轨道的字幕生成触发操作时,分别对该至少一个音频轨道中的每个音频轨道上的音频数据进行语音识别,得到每个音频轨道对应的文字片段。然后,基于每个音频轨道对应的文字片段,生成目标音视频文件的字幕。与针对所有音频轨道上的音频数据进行整体语音识别相比,本公开实施例针对每个音频轨道上的音频数据分别进行独立的语音识别,避免了音频轨道彼此之间的影响,能够得到更准确的语音识别结果,进而提高了基于语音识别结果生成的字幕的准确性。
一种应用场景中,在生成目标音视频文件的字幕之后,可以按照预设字幕显示方式,基于时间轴对目标音视频文件的字幕进行显示。参考图4,为本公开实施例提供的一种字幕显示界面的示意图,其中,图4中的音频轨道的上方基于时间轴显示有字幕。另外,字幕显示界面上的三个区域分别同步显示字幕,对于目标音视频文件的字幕中的文字,可以以默认的字体、颜色、字号等进行显示,以提高字幕的展示效果,进而提高用户的体验。
另外,本公开实施例中还可以针对字幕进行调整,具体的,在接收到针对字幕的调整操作后,对字幕进行显示更新。其中,调整操作包括增加操作、删除操作或修改操作。
参考图5,为本公开实施例提供的另一种字幕显示界面的示意图,其中,用户可以通过点击显示的字幕中的任一段文字,触发对该段文字的修改、删除操作等,另外,用户还可以通过点击字幕显示区域中的空白位置,触发输入框的显示,在输入框中输入增加的字幕内容后,触发字幕的增加操作,实现对字幕内容的增加。
实际应用中,用户可以根据需求对生成的字幕进行修正,以得到更准确的字幕。
另外,一种应用场景中,如果针对目标音视频文件存在变速处理,则基于目标音视频文件的变速播放倍数,对目标音视频文件的字幕进行显示时间压缩,然后跟随变速处理后的目标音视频文件的播放,对显示时间压缩后的字幕进行展示。
例如,假设目标音视频文件的变速播放倍数为2倍,则将目标音视频文件的字幕的显示时间等比例压缩至原显示时间的二分之一。
与上述方法实施例属于同一个发明构思,本公开还提供了一种字幕生成装置,参考图6,为本公开实施例提供的一种字幕生成装置,所述装置包括:
识别模块601,用于响应于针对目标音视频文件中至少一个音频轨道的字幕生成触发操作,分别对所述至少一个音频轨道中每个音频轨道上的音频数据进行语音识别,得到每个音频轨道对应的文字片段;
生成模块602,用于基于每个音频轨道对应的文字片段,生成所述目标音视频文件的字幕。
一种可选的实施方式中,所述文字片段具有开始显示时间和结束显示时间;
所述生成模块602,包括:
排序子模块,用于基于每个文字片段的所述开始显示时间,对每个音频轨道对应的文字片段进行综合排序;
判断子模块,用于判断综合排序后的相邻文字片段中前一个文字片段的结束显示时间是否晚于后一个文字片段的开始显示时间;
压缩子模块,用于在所述前一个文字片段的结束显示时间晚于所述后一个文字片段的开始显示时间时,对所述前一个文字片段进行显示时间压缩,以使所述前一个文字片段的结束显示时间不晚于所述后一个文字片段的开始显示时间;
生成子模块,用于基于时间轴对各个文字片段进行合并,生成所述目标音视频文件的字幕。
一种可选的实施方式中,所述装置还包括:
确定模块,用于确定所述开始显示时间相同的文字片段中,所述结束显示时间最晚的文字片段;
删除模块,用于将所述开始显示时间相同的文字片段中,除所述结束显示时间最晚的文字片段之外的其他文字片段删除。
一种可选的实施方式中,所述装置还包括:
更新模块,用于响应于针对所述字幕的调整操作,对所述字幕进行更新;其中,所述调整操作包括增加操作、删除操作或修改操作。
一种可选的实施方式中,所述装置还包括:
时间压缩模块,用于基于所述目标音视频文件的变速播放倍数,对所述目标音视频文件的字幕进行显示时间压缩。
本公开实施例提供的字幕生成装置,在接收到针对目标音视频文件中至少一个音频轨道的字幕生成触发操作时,分别对该至少一个音频轨道中的每个音频轨道上的音频数据进行语音识别,得到每个音频轨道对应的文字片段。然后,基于每个音频轨道对应的文字片段,生成目标音视频文件的字幕。与针对所有音频轨道上的音频数据进行整体语音识别相比,本公开实施例针对每个音频轨道上的音频数据分别进行独立的语音识别,避免了音频轨道彼此之间的影响,能够得到更准确的语音识别结果,进而提高了基于语音识别结果生成的字幕的准确性。
另外,本公开实施例还提供了一种字幕生成设备,参见图7所示,可以包括:
处理器701、存储器702、输入装置703和输出装置704。字幕生成设备中的处理器701的数量可以一个或多个,图7中以一个处理器为例。在本发明的一些实施例中,处理器701、存储器702、输入装置703和输出装置704可通过总线或其它方式连接,其中,图7中以通过总线连接为例。
存储器702可用于存储软件程序以及模块,处理器701通过运行存储在存储器702的软件程序以及模块,从而执行字幕生成设备的各种功能应用以及数据处理。存储器702可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等。此外,存储器702可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。输入装置703可用于接收输入的数字或字符信息,以及产生与字幕生成设备的用户设置以及功能控制有关的信号输入。
具体在本实施例中,处理器701会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器702中,并由处理器701来运行存储在存储器702中的应用程序,从而实现上述字幕生成设备的各种功能。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种字幕生成方法,其特征在于,所述方法包括:
响应于针对目标音视频文件中至少一个音频轨道的字幕生成触发操作,分别对所述至少一个音频轨道中每个音频轨道上的音频数据进行语音识别,得到每个音频轨道对应的文字片段,其中,所述文字片段具有开始显示时间和结束显示时间;
基于每个文字片段的所述开始显示时间,对每个音频轨道对应的文字片段进行综合排序;
判断综合排序后的相邻文字片段中前一个文字片段的结束显示时间是否晚于后一个文字片段的开始显示时间;
如果所述前一个文字片段的结束显示时间晚于所述后一个文字片段的开始显示时间,则将所述前一个文字片段的结束显示时间更新为所述后一个文字片段的开始显示时间,以使所述前一个文字片段的结束显示时间不晚于所述后一个文字片段的开始显示时间;
基于时间轴对各个文字片段进行合并,生成所述目标音视频文件的字幕。
2.根据权利要求1所述的方法,其特征在于,在所述基于时间轴对每个文字片段进行合并,生成所述目标音视频文件的字幕之前,还包括:
确定所述开始显示时间相同的文字片段中,所述结束显示时间最晚的文字片段;
将所述开始显示时间相同的文字片段中,除所述结束显示时间最晚的文字片段之外的其他文字片段删除。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于针对所述字幕的调整操作,对所述字幕进行更新;其中,所述调整操作包括增加操作、删除操作或修改操作。
4.根据权利要求1所述的方法,其特征在于,所述基于每个音频轨道对应的文字片段,生成所述目标音视频文件的字幕之后,还包括:
基于所述目标音视频文件的变速播放倍数,对所述目标音视频文件的字幕进行显示时间压缩。
5.一种字幕生成装置,其特征在于,所述装置包括:
识别模块,用于响应于针对目标音视频文件中至少一个音频轨道的字幕生成触发操作,分别对所述至少一个音频轨道中每个音频轨道上的音频数据进行语音识别,得到每个音频轨道对应的文字片段,其中,所述文字片段具有开始显示时间和结束显示时间;
生成模块,用于基于每个音频轨道对应的文字片段,生成所述目标音视频文件的字幕;所述生成模块,包括:
排序子模块,用于基于每个文字片段的所述开始显示时间,对每个音频轨道对应的文字片段进行综合排序;
判断子模块,用于判断综合排序后的相邻文字片段中前一个文字片段的结束显示时间是否晚于后一个文字片段的开始显示时间;
压缩子模块,用于在所述前一个文字片段的结束显示时间晚于所述后一个文字片段的开始显示时间时,将所述前一个文字片段的结束显示时间更新为所述后一个文字片段的开始显示时间,以使所述前一个文字片段的结束显示时间不晚于所述后一个文字片段的开始显示时间;
生成子模块,用于基于时间轴对各个文字片段进行合并,生成所述目标音视频文件的字幕。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
确定模块,用于确定所述开始显示时间相同的文字片段中,所述结束显示时间最晚的文字片段;
删除模块,用于将所述开始显示时间相同的文字片段中,除所述结束显示时间最晚的文字片段之外的其他文字片段删除。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备实现如权利要求1-4任一项所述的方法。
8.一种设备,其特征在于,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-4任一项所述的方法。
CN202010719394.1A 2020-07-23 2020-07-23 一种字幕生成方法、装置、设备及存储介质 Active CN111901538B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202010719394.1A CN111901538B (zh) 2020-07-23 2020-07-23 一种字幕生成方法、装置、设备及存储介质
EP21845741.4A EP4171018A4 (en) 2020-07-23 2021-07-22 SUBTITLE GENERATION METHOD AND APPARATUS, DEVICE, AND STORAGE MEDIUM
PCT/CN2021/107845 WO2022017459A1 (zh) 2020-07-23 2021-07-22 字幕生成方法、装置、设备及存储介质
US18/087,631 US11837234B2 (en) 2020-07-23 2022-12-22 Subtitle generation method and apparatus, and device and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010719394.1A CN111901538B (zh) 2020-07-23 2020-07-23 一种字幕生成方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111901538A CN111901538A (zh) 2020-11-06
CN111901538B true CN111901538B (zh) 2023-02-17

Family

ID=73189315

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010719394.1A Active CN111901538B (zh) 2020-07-23 2020-07-23 一种字幕生成方法、装置、设备及存储介质

Country Status (4)

Country Link
US (1) US11837234B2 (zh)
EP (1) EP4171018A4 (zh)
CN (1) CN111901538B (zh)
WO (1) WO2022017459A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111901538B (zh) 2020-07-23 2023-02-17 北京字节跳动网络技术有限公司 一种字幕生成方法、装置、设备及存储介质
CN112738563A (zh) * 2020-12-28 2021-04-30 深圳万兴软件有限公司 自动添加字幕片段的方法、装置及计算机设备
CN113259776B (zh) * 2021-04-14 2022-11-22 北京达佳互联信息技术有限公司 字幕与音源的绑定方法及装置
CN114363691A (zh) * 2021-04-22 2022-04-15 南京亿铭科技有限公司 语音字幕合成方法、装置、计算机设备及存储介质
CN113422996B (zh) * 2021-05-10 2023-01-20 北京达佳互联信息技术有限公司 字幕信息编辑方法、装置及存储介质
CN114501159B (zh) * 2022-01-24 2023-12-22 传神联合(北京)信息技术有限公司 一种字幕编辑方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005057906A2 (en) * 2003-12-08 2005-06-23 Divx, Inc. Multimedia distribution system
WO2011011623A1 (en) * 2009-07-24 2011-01-27 Echostar Technologies L.L.C. Systems and methods for facilitating foreign language instruction
CN102348071A (zh) * 2011-06-02 2012-02-08 上海东方传媒集团有限公司 一种实现节目的字幕制作方法及系统
CN103761985A (zh) * 2014-01-24 2014-04-30 北京华科飞扬科技有限公司 一种多通道视音频在线式演播编辑系统
CN104575547A (zh) * 2013-10-17 2015-04-29 深圳市云帆世纪科技有限公司 多媒体文件制作方法、播放方法及系统
CN105338394A (zh) * 2014-06-19 2016-02-17 阿里巴巴集团控股有限公司 字幕数据的处理方法及系统
CN108924583A (zh) * 2018-07-19 2018-11-30 腾讯科技(深圳)有限公司 视频文件生成方法及其设备、系统、存储介质

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7139031B1 (en) * 1997-10-21 2006-11-21 Principle Solutions, Inc. Automated language filter for TV receiver
US20030065503A1 (en) * 2001-09-28 2003-04-03 Philips Electronics North America Corp. Multi-lingual transcription system
US8131545B1 (en) * 2008-09-25 2012-03-06 Google Inc. Aligning a transcript to audio data
US10506295B2 (en) * 2014-10-09 2019-12-10 Disney Enterprises, Inc. Systems and methods for delivering secondary content to viewers
CN105704538A (zh) * 2016-03-17 2016-06-22 广东小天才科技有限公司 一种音视频字幕生成方法及系统
US20180018961A1 (en) * 2016-07-13 2018-01-18 Google Inc. Audio slicer and transcription generator
US20180211556A1 (en) * 2017-01-23 2018-07-26 Rovi Guides, Inc. Systems and methods for adjusting display lengths of subtitles based on a user's reading speed
TWI635482B (zh) * 2017-03-20 2018-09-11 李宗盛 Instant editing multi-track electronic device and processing method
US10580457B2 (en) * 2017-06-13 2020-03-03 3Play Media, Inc. Efficient audio description systems and methods
US20200126559A1 (en) * 2018-10-19 2020-04-23 Reduct, Inc. Creating multi-media from transcript-aligned media recordings
US11347379B1 (en) * 2019-04-22 2022-05-31 Audible, Inc. Captions for audio content
US11211053B2 (en) * 2019-05-23 2021-12-28 International Business Machines Corporation Systems and methods for automated generation of subtitles
US20210064327A1 (en) * 2019-08-26 2021-03-04 Abigail Ispahani Audio highlighter
US11183194B2 (en) * 2019-09-13 2021-11-23 International Business Machines Corporation Detecting and recovering out-of-vocabulary words in voice-to-text transcription systems
US11301644B2 (en) * 2019-12-03 2022-04-12 Trint Limited Generating and editing media
US11070891B1 (en) * 2019-12-10 2021-07-20 Amazon Technologies, Inc. Optimization of subtitles for video content
US11562743B2 (en) * 2020-01-29 2023-01-24 Salesforce.Com, Inc. Analysis of an automatically generated transcription
US11334622B1 (en) * 2020-04-01 2022-05-17 Raymond James Buckley Apparatus and methods for logging, organizing, transcribing, and subtitling audio and video content
CN111901538B (zh) * 2020-07-23 2023-02-17 北京字节跳动网络技术有限公司 一种字幕生成方法、装置、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005057906A2 (en) * 2003-12-08 2005-06-23 Divx, Inc. Multimedia distribution system
WO2011011623A1 (en) * 2009-07-24 2011-01-27 Echostar Technologies L.L.C. Systems and methods for facilitating foreign language instruction
CN102348071A (zh) * 2011-06-02 2012-02-08 上海东方传媒集团有限公司 一种实现节目的字幕制作方法及系统
CN104575547A (zh) * 2013-10-17 2015-04-29 深圳市云帆世纪科技有限公司 多媒体文件制作方法、播放方法及系统
CN103761985A (zh) * 2014-01-24 2014-04-30 北京华科飞扬科技有限公司 一种多通道视音频在线式演播编辑系统
CN105338394A (zh) * 2014-06-19 2016-02-17 阿里巴巴集团控股有限公司 字幕数据的处理方法及系统
CN108924583A (zh) * 2018-07-19 2018-11-30 腾讯科技(深圳)有限公司 视频文件生成方法及其设备、系统、存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Edius5的影视制作;尹敬齐;《计算机与网络》;20100126(第02期);全文 *

Also Published As

Publication number Publication date
CN111901538A (zh) 2020-11-06
US11837234B2 (en) 2023-12-05
WO2022017459A1 (zh) 2022-01-27
EP4171018A1 (en) 2023-04-26
US20230128946A1 (en) 2023-04-27
EP4171018A4 (en) 2024-01-03

Similar Documents

Publication Publication Date Title
CN111901538B (zh) 一种字幕生成方法、装置、设备及存储介质
CN106484131B (zh) 一种输入纠错方法和输入法装置
CN109299352B (zh) 搜索引擎中网站数据的更新方法、装置和搜索引擎
JP2018522288A (ja) オーディオ処理の方法、装置及び端末
CN110874216B (zh) 一种完备代码生成方法、装置、设备和存储介质
KR101336846B1 (ko) 콘텐츠 검색 서비스를 제공하는 방법, 검색 서버 및 이를 포함하는 검색 시스템
CN114520931A (zh) 视频生成方法、装置、电子设备及可读存储介质
CN105578297B (zh) 一种web端音视频文件片段式重复播放方法及系统
CN107424609A (zh) 一种语音控制方法及装置
CN111077940A (zh) 一种自动创建波形序列的方法及装置
CN113223499B (zh) 一种音频负样本的生成方法及装置
CN114822540A (zh) 车辆语音交互方法、服务器和存储介质
CN111491060B (zh) 信息点击日志与话单拼接方法和装置
CN112650467A (zh) 语音播放方法及相关装置
CN112667631A (zh) 业务字段自动编辑方法、装置、设备及存储介质
US11232013B2 (en) Log analysis system, log analysis method, and log analysis program for a user interface
CN116600176B (zh) 笔顺音视频生成方法、装置、计算机设备及存储介质
CN113742513B (zh) 歌单调整方法、装置、设备以及计算机可读存储介质
CN114035781A (zh) 测试脚本的处理方法、装置、存储介质和电子设备
CN116101304A (zh) 车辆引导控制方法、装置、设备及存储介质
CN114840244A (zh) 一种分析引擎的生成方法、装置、设备及存储介质
WO2012176385A1 (ja) コンテンツ素材価格決定システム、コンテンツ素材価格決定方法およびプログラム
CN115103225A (zh) 视频片段提取方法、装置、电子设备和存储介质
CN115664757A (zh) 人机交互验证方法和装置
CN115457948A (zh) 播放进度的调节方法、车辆及音频播放设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant