CN106878805A - 一种混合语种字幕文件生成方法及装置 - Google Patents
一种混合语种字幕文件生成方法及装置 Download PDFInfo
- Publication number
- CN106878805A CN106878805A CN201710065710.6A CN201710065710A CN106878805A CN 106878805 A CN106878805 A CN 106878805A CN 201710065710 A CN201710065710 A CN 201710065710A CN 106878805 A CN106878805 A CN 106878805A
- Authority
- CN
- China
- Prior art keywords
- audio
- languages
- audio section
- section
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8106—Monomedia components thereof involving special audio data, e.g. different tracks for different languages
Abstract
本发明适用计算机技术领域,提供了一种混合语种字幕文件生成方法及装置,所述方法包括:接收用户输入的音视频文件,提取音视频文件中的音频,将音频分割为多个音频段,并存储每个音频段对应的时间信息,对多个音频段进行语种识别,获取音频段对应的语种类别,根据语种类别,对多个音频段进行语音识别,并获取音频段语音识别后的文本内容,根据音频段的时间信息和文本内容,生成混合语种的字幕文本,从而通过语种识别和语音识别为无字幕视频实现混合语种字幕文件的自动生成,有效地提高混合语种语音识别的准确率和混合语种字幕文件的生成效率,降低了混合语种字幕文件的生成成本。
Description
技术领域
本发明属于计算机技术领域,尤其涉及一种混合语种字幕文件生成方法及装置。
背景技术
在影视剧节目或者在网上课堂等视频中,字幕能够很好地帮助观众理解节目剧情或者人物说话的意思,因此字幕已经成为各类视频不可或缺的部分。由于在这些视频中,可能出现人物说话时用到多种语言的情形,例如在英文课堂教学中,老师通常将英文和中文掺杂使用,因此这类视频涉及到混合语种字幕的生成的问题。目前,在现有技术中对于混合语种字幕生成问题,通常先将视频的音频语音识别为一种单独的语言,再又人工将相应的部分改为另外一种语言,可见,这种方式不仅耗时较长、效率较低,而且语音识别准确率不高。
发明内容
本发明的目的在于提供一种混合语种字幕文件生成方法及装置,旨在解决由于现有技术无法提供一种有效的混合语种字幕文件的生成方法,导致混合语种字幕文件生成效率低、成本高的问题。
一方面,本发明提供了一种混合语种字幕文件生成方法,所述方法包括下述步骤:
接收用户输入的音视频文件,提取所述音视频文件中的音频;
将所述音频分割为多个音频段,并存储每个音频段对应的时间信息;
对所述多个音频段进行语种识别,获取所述音频段对应的语种类别;
根据所述语种类别,对所述多个音频段进行语音识别,并获取所述音频段语音识别后的文本内容;
根据所述音频段的时间信息和文本内容,生成混合语种的字幕文本。
另一方面,本发明提供了一种混合语种字幕文件生成系统,所述系统包括:
音音频提取模块,用于接收用户输入的音视频文件,提取所述音视频文件中的音频;
音频分割模块,用于将所述音频分割为多个音频段,并存储每个音频段对应的时间信息;
语种识别模块,用于对所述多个音频段进行语种识别,获取所述音频段对应的语种类别;
语音识别模块,用于根据所述语种类别,对所述多个音频段进行语音识别,并获取所述音频段语音识别后的文本内容;以及
字幕生成模块,用于根据所述音频段的时间信息和文本内容,生成混合语种的字幕文本。
本发明接收用户输入的音视频文件,提取音视频文件中的音频,将音频分割为多个音频段,并存储每个音频段对应的时间信息,对多个音频段进行语种识别,获取音频段对应的语种类别,根据该语种类别,对多个音频段进行语音识别,并获取这些音频段语音识别后的文本内容,根据音频段的时间信息和文本内容,生成混合语种的字幕文本,从而实现了混合语种字幕文件的生成,有效地提高了混合语种语音的识别准确率和混合语种字幕文件的生成效率,降低了混合语种字幕文件的生成成本。
附图说明
图1是本发明实施例一提供的混合语种字幕文件生成方法的实现流程图;
图2是本发明实施例二提供的混合语种字幕文件生成装置的结构示意图;以及
图3是本发明实施例三提供的混合语种字幕文件生成装置的优选结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述:
实施例一:
图1示出了本发明实施例一提供的混合语种字幕文件生成方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S101中,接收用户输入的音视频文件,提取音视频文件中的音频。
本发明实施例适用于支持音视频播放的计算机、手机、平板电脑等音视频播放设备。音视频文件为无字幕的音频文件或者视频文件,且该音频或者视频中可能出现多种语言,例如,一句话中同时出现中文和英文、或者一段话中同时出现一句或多句中文和英文。具体地,当该音视频文件为视频文件时,需分离出该视频文件中的音频流,并将该音频流保存为音频文件,以便后续步骤中的音频分割、语种识别等操作。
优选地,提取出音视频文件中的音频后可对该音频进行预处理,预处理方式可包括音频信号去噪、分贝值设置等,以去除音频中的噪音干扰和弱化背景音,从而使得音频中的发音更为清晰,得到更适于语音识别和语种识别的音频。
在步骤S102中,将音频分割为多个音频段,并存储每个音频段对应的时间信息。
在本发明实施例中,预先设定用于分割音频的语音停顿间隔阈值和当前音视频播放设备的显示屏幕宽度值,可依照这两个值对音频进行分割,得到适合语音识别和显示屏幕宽度的多个音频段。
具体地,先检测音频中的停顿处或静音处,当该停顿处或静音处的持续时长超过语音停顿间隔阈值时,可将该停顿处或静音处设置为该音频的分割点,接着,根据显示屏幕宽度值,确定最长音频时间间隔和最短音频时间间隔,当音频中相邻分割点间的持续时长超过最长音频时间间隔时,在相邻分割点间的音频段中再次设置一个分割点,为减少设置好该分割点后再次出现相邻分割点间的持续时长超过最长音频时间间隔或不足最短时间间隔情形的概率,该分割点可设置在对应音频段的正中位置,当音频中相邻分割点间的持续时长不足虽短音频时间间隔时,可将该相邻分割点间的音频段与持续时长较短的相邻音频段进行合并。因此根据语音停顿间隔阈值对音频进行分割,可较大概率地满足音频段的句意完整性,根据显示屏幕宽度值对音频进行分割,可使音频段的文字内容在显示屏幕中的显示效果。
具体地,音频段的时间信息可包括该音频段在整段音频中的开始时间和结束时间,其中,开始时间和结束时间用于计算每个音频段的持续时长以及用于生成字幕文本的时间轴。
在步骤S103中,根据语种类别,对多个音频段进行语种识别,获取每个音频段对应的语种类别。
在本发明实施例中,由于音频段中可能存在多种语言,因此可对音频段进行语种识别,以得到音频段的语言种类,其中,语种类别可包括中文、英文等。具体地,可预先训练出用于多种语种识别的识别模型或者识别库,并对待识别的音频段进行特征提取,将该音频段的特征输入该识别模型或识别库,得到该特征的匹配结果,并根据该结果确定该音频段的语种类别。
优选地,可将识别错误的音频加入训练库,以优化或扩充用于语种识别的识别模型或识别库,以用于语种识别,进一步提高语种识别的准确率。
优选地,可根据基于语音音素的方法或基于声学特征的方法构建并训练得到多语种的识别模型或者识别库,以用于语种识别,从而提高语种识别的准确率。
在步骤S104中,根据语种类别,对多个音频段进行语音识别,并获取音频段语音识别后的文本内容。
在本发明实施例中,可预先构建多语种的语音识别系统,在语音识别过程中,根据音频段对应的语种类别,调用该语种类别对应的语音识别系统对该音频段进行语音识别。具体地,在语音识别系统接收到待识别的音频段后,提取音频段的语音特征,并将该语音特征与语音识别系统中预先存储的语音特征进行匹配,接着,根据匹配结果,获得音频段的语音识别结果,并生成音频段对应的文本内容。其中,文本内容与音频段两者的语种类别一样。
优选地,当音频段的语音特征在语音识别系统中匹配失败时,将该音频段发送到预设的通用语音识别系统进行识别,以得到较为准确的识别结果,具体地,通用语音识别系统可为优同科技语音识别系统、科大讯飞语音识别系统等。
在步骤S105中,根据音频段的时间信息和文本内容,生成混合语种的字幕文本。
在本发明实施例中,音频段的时间信息为该音频段在整段音频中的开始时间和结束时间,因此可根据时间信息生成相应文本内容的开始时间轴和结束时间轴,即文本内容为开始时间轴和结束时间轴之间的字幕内容。因此,可根据所有音频段的时间信息和文本内容,生成混合语种的字幕文本。
在本发明实施例中,对无字幕混合语种的音视频文件进行音频分割,得到多段音频段和每个音频段的时间信息,对这些音频段进行语种识别和语音识别,获得每个音频段对应的文本内容,最后根据每个音频段的时间信息和文本内容,生成混合语种的字幕文件,从而为无字幕混合语种的音视频文件生成的字幕文件,解决了音频中多种语种掺杂出现时的字幕生成问题,并有效地提高了混合语种音频的语音识别准确率和混合语种字幕文件的生成效率,有效地降低了混合语种字幕文件的生成成本。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。
实施例二:
图2示出了本发明实施例二提供的混合语种字幕文件生成装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分,其中包括:
音频提取模块21,用于接收用户输入的音视频文件,提取音视频文件中的音频。
在本发明实施例中,当该音视频文件为视频文件时,需分离出该视频文件中的音频流,并将该音频流保存为音频文件,以便后续步骤中的音频分割、语种识别等操作。
优选地,提取出音视频文件中的音频后可对该音频进行预处理,预处理方式可包括音频信号去噪、分贝值设置等,以去除音频中的噪音干扰和弱化背景音,从而使得音频中的发音更为清晰,得到更适于语音识别和语种识别的音频。
音频分割模块22,用于将音频分割为多个音频段,并存储每个音频段对应的时间信息。
在本发明实施例中,预先设定用于分割音频的语音停顿间隔阈值和当前音视频播放设备的显示屏幕宽度值,可依照这两个值对音频进行分割,得到适合语音识别和显示屏幕宽度的多个音频段。
具体地,先检测音频中的停顿处或静音处,当该停顿处或静音处的持续时长超过语音停顿间隔阈值时,可将该停顿处或静音处设置为该音频的分割点,接着,根据显示屏幕宽度值,确定最长音频时间间隔和最短音频时间间隔,当音频中相邻分割点间的持续时长超过最长音频时间间隔时,在相邻分割点间的音频段中再次设置一个分割点,为减少设置好该分割点后再次出现相邻分割点间的持续时长超过最长音频时间间隔或不足最短时间间隔情形的概率,该分割点可设置在对应音频段的正中位置,当音频中相邻分割点间的持续时长不足虽短音频时间间隔时,可将该相邻分割点间的音频段与持续时长较短的相邻音频段进行合并。因此根据语音停顿间隔阈值对音频进行分割,可较大概率地满足音频段的句意完整性,根据显示屏幕宽度值对音频进行分割,可使音频段的文字内容在显示屏幕中的显示效果。
具体地,音频段的时间信息可包括该音频段在整段音频中的开始时间和结束时间,其中,开始时间和结束时间用于计算每个音频段的持续时长以及用于生成字幕文本的时间轴。
语种识别模块23,用于根据语种类别,对多个音频段进行语种识别,获取每个音频段对应的语种类别。
在本发明实施例中,由于音频段中可能存在多种语言,因此可对音频段进行语种识别,以得到音频段的语言种类,其中,语种类别可包括中文、英文等。具体地,可预先训练出用于多种语种识别的识别模型或者识别库,并对待识别的音频段进行特征提取,将该音频段的特征输入该识别模型或识别库,得到该特征的匹配结果,并根据该结果确定该音频段的语种类别。
优选地,可将识别错误的音频加入训练库,以优化或扩充用于语种识别的识别模型或识别库,以用于语种识别,进一步提高语种识别的准确率。
优选地,可根据基于语音音素的方法或基于声学特征的方法构建并训练得到多语种的识别模型或者识别库,以用于语种识别,从而提高语种识别的准确率。
语音识别模块24,用于根据语种类别,对多个音频段进行语音识别,并获取音频段语音识别后的文本内容。
在本发明实施例中,可预先构建多语种的语音识别系统,在语音识别过程中,根据音频段对应的语种类别,调用该语种类别对应的语音识别系统对该音频段进行语音识别。具体地,在语音识别系统接收到待识别的音频段后,提取音频段的语音特征,并将该语音特征与语音识别系统中预先存储的语音特征进行匹配,接着,根据匹配结果,获得音频段的语音识别结果,并生成音频段对应的文本内容。其中,文本内容与音频段两者的语种类别一样。
优选地,当音频段的语音特征在语音识别系统中匹配失败时,将该音频段发送到预设的通用语音识别系统进行识别,以得到较为准确的识别结果,具体地,通用语音识别系统可为优同科技语音识别系统、科大讯飞语音识别系统等。
字幕生成模块25,根据音频段的时间信息和文本内容,生成混合语种的字幕文本。
在本发明实施例中,音频段的时间信息为该音频段在整段音频中的开始时间和结束时间,因此可根据时间信息生成相应文本内容的开始时间轴和结束时间轴,即文本内容为开始时间轴和结束时间轴之间的字幕内容。因此,可根据所有音频段的时间信息和文本内容,生成混合语种的字幕文本。
在本发明实施例中,对无字幕混合语种的音视频文件进行音频分割,得到多段音频段和每个音频段的时间信息,对这些音频段进行语种识别和语音识别,获得每个音频段对应的文本内容,最后根据每个音频段的时间信息和文本内容,生成混合语种的字幕文件,从而为无字幕混合语种的音视频文件生成的字幕文件,解决了音频中多种语种掺杂出现时的字幕生成问题,并有效地提高了混合语种音频的语音识别准确率和混合语种字幕文件的生成效率,有效地降低了混合语种字幕文件的生成成本。
实施例三:
图3示出了本发明实施例三提供的混合语种字幕文件生成结构的优选结构,为了便于说明,仅示出了与本发明实施例相关的部分,其中包括:
音频提取模块31,用于接收用户输入的音视频文件,提取音视频文件中的音频。
在本发明实施例中,当该音视频文件为视频文件时,需分离出该视频文件中的音频流,并将该音频流保存为音频文件,以便后续步骤中的音频分割、语种识别等操作。
音频分割模块32,用于将音频分割为多个音频段,并存储每个音频段对应的时间信息。
在本发明实施例中,预先设置语音停顿间隔阈值和当前音视频播放设备的显示屏幕宽度值,并根据该语音停顿间隔阈值对音频进行初步分割,再根据显示屏幕宽度值,对音频进行再次分割和合并,最终得到多段音频段。
语种识别模块33,用于根据语种类别,对多个音频段进行语种识别,获取每个音频段对应的语种类别。
在本发明实施例中,可预先训练出用于多种语种识别的识别模型或者识别库,并对待识别的音频段进行特征提取,将该音频段的特征输入该识别模型或识别库,得到该特征的匹配结果,并根据该结果确定该音频段的语种类别。
语音识别模块34,用于根据语种类别,对多个音频段进行语音识别,并获取音频段语音识别后的文本内容。
在本发明实施例中,可预先构建多语种的语音识别系统,在语音识别过程中,根据音频段对应的语种类别,调用该语种类别对应的语音识别系统。在语音识别系统中,提取音频段的语音特征,并将该语音特征与语音识别系统中预先存储的语音特征进行匹配,接着,根据匹配结果,获得音频段的语音识别结果,并生成音频段对应的文本内容。具体地,文本内容与音频段两者的语种类别一样。
字幕生成模块35,根据音频段的时间信息和文本内容,生成混合语种的字幕文本。
在本发明实施例中,可根据时间信息生成相应文本内容的开始时间轴和结束时间轴,即文本内容为开始时间轴和结束时间轴之间的字幕内容。因此,可根据所有音频段的时间信息和文本内容,生成混合语种的字幕文本。
因此,优选地,音频分割模块32可包括初步分割模块321和分割合并模块322,其中:
初步分割模块321,用于根据音频的语音停顿,对音频进行初步分割;以及
分割合并模块322,用于根据预设的显示屏幕宽度,对初步分割后的音频进行再次分割和合并,获得多个音频段,并存储每个音频段对应的时间信息。
优选地,语种识别模块33可包括特征提取模块331和语种确定模块332,其中:
特征提取模块331,用于根据预设的多语种识别模型或识别库,提取音频段的特征;以及
语种确定模块332,用于在多语种识别模型或识别库中,对特征进行匹配,并根据匹配结果确定音频段的语种类别。
优选地,语音识别模块34可包括语音识别子模块341,其中:
语音识别子模块341,用于获取音频段中音频的语种类别,并调用语种类别对应的语音识别系统,对音频段进行语音识别,以获取音频段对应的文本内容。
优选地,字幕生成子模块35可包括时间轴生成模块351和字幕生成子模块352,其中:
时间轴生成模块351,用于根据音频段的时间信息,生成文本内容的时间轴;以及
字幕生成子模块352,用于根据文本内容和文本内容的时间轴,生成混合语种的字幕文件。
在本发明实施例中,实现了为无字幕混合语种的音视频文件生成对应的字幕文件,解决了音频中多种语种掺杂出现时的字幕生成问题,从而有效提高了混合语种音频的语音识别准确率和混合语种字幕文件生成的效率,并有效地降低了混合语种字幕文件生成的成本。
在本发明实施例中,混合语种字幕文件生成装置的各单元可由相应的硬件或软件单元实现,各单元可以为独立的软、硬件单元,也可以集成为一个软、硬件单元,在此不用以限制本发明。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种混合语种字幕文件生成方法,其特征在于,所述方法包括下述步骤:
接收用户输入的音视频文件,提取所述音视频文件中的音频;
将所述音频分割为多个音频段,并存储每个音频段对应的时间信息;
对所述多个音频段进行语种识别,获取所述音频段对应的语种类别;
根据所述语种类别,对所述多个音频段进行语音识别,并获取所述音频段语音识别后的文本内容;
根据所述音频段的时间信息和文本内容,生成混合语种的字幕文本。
2.如权利要求1所述的方法,其特征在于,将所述音频分割为多个音频段,并存储每个音频段对应的时间信息的步骤,包括:
根据所述音频的语音停顿,对所述音频进行初步分割;
根据预设的显示屏幕宽度,对所述初步分割后的音频进行再次分割和合并,获得所述多个音频段,并存储每个音频段对应的时间信息。
3.如权利要求1所述的方法,其特征在于,对所述多个音频段进行语种识别,获取所述音频段对应的语种类别的步骤,包括:
根据预设的多语种识别模型或识别库,提取所述音频段的特征;
在所述多语种识别模型或识别库中,对所述特征进行匹配,并根据匹配结果确定所述音频段的语种类别。
4.如权利要求1所述的方法,其特征在于,对所述多个音频段进行语音识别,并获取所述音频段语音识别后的文本内容的步骤,包括:
获取所述音频段的语种类别,并调用所述语种类别对应的语音识别系统,对所述音频段进行语音识别,以获取所述音频段的文本内容。
5.如权利要求1所述的方法,其特征在于,根据所述语种,根据所述音频段的时间信息和文本内容,生成混合语种的字幕文本的步骤,包括:
根据所述音频段的时间信息,生成所述文本内容的时间轴;
根据所述文本内容和所述文本内容的时间轴,生成所述混合语种的字幕文件。
6.一种混合语种字幕文件的生成装置,其特征在于,所述装置包括:
音频提取模块,用于接收用户输入的音视频文件,提取所述音视频文件中的音频;
音频分割模块,用于将所述音频分割为多个音频段,并存储每个音频段对应的时间信息;
语种识别模块,用于对所述多个音频段进行语种识别,获取所述音频段对应的语种类别;
语音识别模块,用于根据所述语种类别,对所述多个音频段进行语音识别,并获取所述音频段语音识别后的文本内容;以及
字幕生成模块,用于根据所述音频段的时间信息和文本内容,生成混合语种的字幕文本。
7.如权利要求6所述的装置,其特征在于,所述音频分割模块包括:
初步分割模块,用于根据所述音频的语音停顿,对所述音频进行初步分割;以及
分割合并模块,用于根据预设的显示屏幕宽度,对所述初步分割后的音频进行再次分割和合并,获得所述多个音频段,并存储每个音频段对应的时间信息。
8.如权利要求6所述的装置,其特征在于,所述语种识别模块包括:
特征提取模块,用于根据预设的多语种识别模型或识别库,提取所述音频段的特征;以及
语种确定模块,用于在所述多语种识别模型或识别库中,对所述特征进行匹配,并根据匹配结果确定所述音频段的语种类别。
9.如权利要求6所述的装置,其特征在于,所述语音识别模块包括:
语音识别子模块,用于获取所述音频段的语种类别,并调用所述语种类别对应的语音识别系统,对所述音频段进行语音识别,以获取所述音频段的文本内容。
10.如权利要求6所述的装置,其特征在于,所述字幕生成模块包括:
时间轴生成模块,用于根据所述音频段的时间信息,生成所述文本内容的时间轴;以及
字幕生成子模块,用于根据所述文本内容和所述文本内容的时间轴,生成所述混合语种的字幕文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710065710.6A CN106878805A (zh) | 2017-02-06 | 2017-02-06 | 一种混合语种字幕文件生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710065710.6A CN106878805A (zh) | 2017-02-06 | 2017-02-06 | 一种混合语种字幕文件生成方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106878805A true CN106878805A (zh) | 2017-06-20 |
Family
ID=59166580
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710065710.6A Pending CN106878805A (zh) | 2017-02-06 | 2017-02-06 | 一种混合语种字幕文件生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106878805A (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107688792A (zh) * | 2017-09-05 | 2018-02-13 | 语联网(武汉)信息技术有限公司 | 一种视频翻译方法及其系统 |
CN108024121A (zh) * | 2017-11-17 | 2018-05-11 | 武汉微摇科技文化有限公司 | 语音弹幕同步方法和系统 |
CN109192192A (zh) * | 2018-08-10 | 2019-01-11 | 北京猎户星空科技有限公司 | 一种语种识别方法、装置、翻译机、介质和设备 |
CN109379641A (zh) * | 2018-11-14 | 2019-02-22 | 腾讯科技(深圳)有限公司 | 一种字幕生成方法和装置 |
CN110534115A (zh) * | 2019-10-14 | 2019-12-03 | 上海企创信息科技有限公司 | 多方言混合语音的识别方法、装置、系统和存储介质 |
CN110659006A (zh) * | 2019-08-20 | 2020-01-07 | 北京捷通华声科技股份有限公司 | 跨屏显示的方法、装置、电子设备及可读存储介质 |
CN111326139A (zh) * | 2020-03-10 | 2020-06-23 | 科大讯飞股份有限公司 | 一种语种识别方法、装置、设备及存储介质 |
CN111524502A (zh) * | 2020-05-27 | 2020-08-11 | 科大讯飞股份有限公司 | 一种语种检测方法、装置、设备及存储介质 |
CN111986655A (zh) * | 2020-08-18 | 2020-11-24 | 北京字节跳动网络技术有限公司 | 音频内容识别方法、装置、设备和计算机可读介质 |
CN112395420A (zh) * | 2021-01-19 | 2021-02-23 | 平安科技(深圳)有限公司 | 视频内容检索方法、装置、计算机设备及存储介质 |
CN112837674A (zh) * | 2019-11-22 | 2021-05-25 | 阿里巴巴集团控股有限公司 | 语音识别方法、装置及相关系统和设备 |
CN113076932A (zh) * | 2021-04-28 | 2021-07-06 | 百度在线网络技术(北京)有限公司 | 训练音频语种识别模型的方法、视频检测方法及其装置 |
CN115484477A (zh) * | 2021-05-31 | 2022-12-16 | 上海哔哩哔哩科技有限公司 | 字幕生成方法及装置 |
CN115798459A (zh) * | 2023-02-03 | 2023-03-14 | 北京探境科技有限公司 | 音频处理方法、装置、存储介质及电子设备 |
CN115831120A (zh) * | 2023-02-03 | 2023-03-21 | 北京探境科技有限公司 | 语料数据采集方法、装置、电子设备及可读存储介质 |
CN116721662A (zh) * | 2023-02-03 | 2023-09-08 | 北京探境科技有限公司 | 音频处理方法、装置、存储介质及电子设备 |
CN111524502B (zh) * | 2020-05-27 | 2024-04-30 | 科大讯飞股份有限公司 | 一种语种检测方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101415259A (zh) * | 2007-10-18 | 2009-04-22 | 三星电子株式会社 | 嵌入式设备上基于双语语音查询的信息检索系统及方法 |
US7624015B1 (en) * | 1999-05-19 | 2009-11-24 | At&T Intellectual Property Ii, L.P. | Recognizing the numeric language in natural spoken dialogue |
CN101645269A (zh) * | 2008-12-30 | 2010-02-10 | 中国科学院声学研究所 | 一种语种识别系统及方法 |
CN101727901A (zh) * | 2009-12-10 | 2010-06-09 | 清华大学 | 嵌入式系统的汉英双语语音识别方法 |
CN106297764A (zh) * | 2015-05-27 | 2017-01-04 | 科大讯飞股份有限公司 | 一种多语种混语文本处理方法及系统 |
CN106340291A (zh) * | 2016-09-27 | 2017-01-18 | 广东小天才科技有限公司 | 一种双语字幕制作方法及系统 |
-
2017
- 2017-02-06 CN CN201710065710.6A patent/CN106878805A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7624015B1 (en) * | 1999-05-19 | 2009-11-24 | At&T Intellectual Property Ii, L.P. | Recognizing the numeric language in natural spoken dialogue |
CN101415259A (zh) * | 2007-10-18 | 2009-04-22 | 三星电子株式会社 | 嵌入式设备上基于双语语音查询的信息检索系统及方法 |
CN101645269A (zh) * | 2008-12-30 | 2010-02-10 | 中国科学院声学研究所 | 一种语种识别系统及方法 |
CN101727901A (zh) * | 2009-12-10 | 2010-06-09 | 清华大学 | 嵌入式系统的汉英双语语音识别方法 |
CN106297764A (zh) * | 2015-05-27 | 2017-01-04 | 科大讯飞股份有限公司 | 一种多语种混语文本处理方法及系统 |
CN106340291A (zh) * | 2016-09-27 | 2017-01-18 | 广东小天才科技有限公司 | 一种双语字幕制作方法及系统 |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107688792A (zh) * | 2017-09-05 | 2018-02-13 | 语联网(武汉)信息技术有限公司 | 一种视频翻译方法及其系统 |
CN108024121A (zh) * | 2017-11-17 | 2018-05-11 | 武汉微摇科技文化有限公司 | 语音弹幕同步方法和系统 |
CN108024121B (zh) * | 2017-11-17 | 2020-02-07 | 武汉微摇科技文化有限公司 | 语音弹幕同步方法和系统 |
CN109192192A (zh) * | 2018-08-10 | 2019-01-11 | 北京猎户星空科技有限公司 | 一种语种识别方法、装置、翻译机、介质和设备 |
CN109379641A (zh) * | 2018-11-14 | 2019-02-22 | 腾讯科技(深圳)有限公司 | 一种字幕生成方法和装置 |
CN110659006B (zh) * | 2019-08-20 | 2023-08-22 | 北京捷通华声科技股份有限公司 | 跨屏显示的方法、装置、电子设备及可读存储介质 |
CN110659006A (zh) * | 2019-08-20 | 2020-01-07 | 北京捷通华声科技股份有限公司 | 跨屏显示的方法、装置、电子设备及可读存储介质 |
CN110534115A (zh) * | 2019-10-14 | 2019-12-03 | 上海企创信息科技有限公司 | 多方言混合语音的识别方法、装置、系统和存储介质 |
CN110534115B (zh) * | 2019-10-14 | 2021-11-26 | 上海企创信息科技有限公司 | 多方言混合语音的识别方法、装置、系统和存储介质 |
CN112837674A (zh) * | 2019-11-22 | 2021-05-25 | 阿里巴巴集团控股有限公司 | 语音识别方法、装置及相关系统和设备 |
CN111326139A (zh) * | 2020-03-10 | 2020-06-23 | 科大讯飞股份有限公司 | 一种语种识别方法、装置、设备及存储介质 |
CN111326139B (zh) * | 2020-03-10 | 2024-02-13 | 科大讯飞股份有限公司 | 一种语种识别方法、装置、设备及存储介质 |
CN111524502A (zh) * | 2020-05-27 | 2020-08-11 | 科大讯飞股份有限公司 | 一种语种检测方法、装置、设备及存储介质 |
CN111524502B (zh) * | 2020-05-27 | 2024-04-30 | 科大讯飞股份有限公司 | 一种语种检测方法、装置、设备及存储介质 |
CN111986655A (zh) * | 2020-08-18 | 2020-11-24 | 北京字节跳动网络技术有限公司 | 音频内容识别方法、装置、设备和计算机可读介质 |
WO2022037419A1 (zh) * | 2020-08-18 | 2022-02-24 | 北京字节跳动网络技术有限公司 | 音频内容识别方法、装置、设备和计算机可读介质 |
CN111986655B (zh) * | 2020-08-18 | 2022-04-01 | 北京字节跳动网络技术有限公司 | 音频内容识别方法、装置、设备和计算机可读介质 |
US11783808B2 (en) * | 2020-08-18 | 2023-10-10 | Beijing Bytedance Network Technology Co., Ltd. | Audio content recognition method and apparatus, and device and computer-readable medium |
CN112395420A (zh) * | 2021-01-19 | 2021-02-23 | 平安科技(深圳)有限公司 | 视频内容检索方法、装置、计算机设备及存储介质 |
CN113076932A (zh) * | 2021-04-28 | 2021-07-06 | 百度在线网络技术(北京)有限公司 | 训练音频语种识别模型的方法、视频检测方法及其装置 |
CN115484477A (zh) * | 2021-05-31 | 2022-12-16 | 上海哔哩哔哩科技有限公司 | 字幕生成方法及装置 |
CN116721662A (zh) * | 2023-02-03 | 2023-09-08 | 北京探境科技有限公司 | 音频处理方法、装置、存储介质及电子设备 |
CN115831120A (zh) * | 2023-02-03 | 2023-03-21 | 北京探境科技有限公司 | 语料数据采集方法、装置、电子设备及可读存储介质 |
CN116721662B (zh) * | 2023-02-03 | 2023-12-01 | 北京探境科技有限公司 | 音频处理方法、装置、存储介质及电子设备 |
CN115798459A (zh) * | 2023-02-03 | 2023-03-14 | 北京探境科技有限公司 | 音频处理方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106878805A (zh) | 一种混合语种字幕文件生成方法及装置 | |
CN104038804B (zh) | 基于语音识别的字幕同步装置和方法 | |
CN106331893B (zh) | 实时字幕显示方法及系统 | |
CN108780643B (zh) | 自动配音方法和装置 | |
CN107193841B (zh) | 媒体文件加速播放、传输及存储的方法和装置 | |
KR101990023B1 (ko) | 외국어학습을 위한 청크단위 분리 규칙과 핵심어 자동 강세 표시 구현 방법 및 시스템 | |
US9812028B1 (en) | Automated generation and presentation of lessons via digital media content extraction | |
CN106340291A (zh) | 一种双语字幕制作方法及系统 | |
CN109545244A (zh) | 语音评测方法、装置、电子设备及存储介质 | |
US20080195386A1 (en) | Method and a Device For Performing an Automatic Dubbing on a Multimedia Signal | |
Lambourne et al. | Speech-based real-time subtitling services | |
CN111462553B (zh) | 一种基于视频配音和纠音训练的语言学习方法及系统 | |
CN106488300A (zh) | 一种视频内容查看方法及装置 | |
CN106328146A (zh) | 一种视频的字幕生成方法及装置 | |
JP2012181358A (ja) | テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム | |
CN105280206B (zh) | 一种音频的播放方法、装置 | |
CN110781649A (zh) | 一种字幕编辑方法、装置及计算机存储介质、电子设备 | |
Pleva et al. | TUKE-BNews-SK: Slovak Broadcast News Corpus Construction and Evaluation. | |
Ando et al. | Construction of a large-scale Japanese ASR corpus on TV recordings | |
KR20140028336A (ko) | 음성 변환 장치 및 이의 음성 변환 방법 | |
WO2004093078A1 (en) | Process for adding subtitles to video content | |
CN110992984B (zh) | 音频处理方法及装置、存储介质 | |
KR101618777B1 (ko) | 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법 | |
Bang et al. | Improving Speech Recognizers by Refining Broadcast Data with Inaccurate Subtitle Timestamps. | |
KR101920653B1 (ko) | 비교음 생성을 통한 어학학습방법 및 어학학습프로그램 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170620 |
|
RJ01 | Rejection of invention patent application after publication |