CN106328146A - 一种视频的字幕生成方法及装置 - Google Patents
一种视频的字幕生成方法及装置 Download PDFInfo
- Publication number
- CN106328146A CN106328146A CN201610701574.0A CN201610701574A CN106328146A CN 106328146 A CN106328146 A CN 106328146A CN 201610701574 A CN201610701574 A CN 201610701574A CN 106328146 A CN106328146 A CN 106328146A
- Authority
- CN
- China
- Prior art keywords
- voice
- speaker
- word
- characteristic information
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 239000000284 extract Substances 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 5
- 230000001360 synchronised effect Effects 0.000 abstract description 2
- 230000008878 coupling Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 4
- 238000005859 coupling reaction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 239000000686 essence Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/278—Subtitling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Electrically Operated Instructional Devices (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明适用字幕制作技术领域,提供了一种视频的字幕生成方法及装置,该方法包括:获取输入的视频文件中包含的音频数据,提取音频数据对应语音的特征信息,根据提取的特征信息,在预设的数据库中匹配对应的说话者,根据说话者的标识获取说话者的语音字典,语音字典存储了说话者的预设语音和与预设语音对应的文字,根据得到的特征信息以及说话者的语音字典,对音频数据对应的语音进行语音识别,得到对应的文字,根据视频文件的时间轴对识别得到的文字进行校对,以得到与视频同步的字幕文件,从而在对视频中的语音进行识别时结合语音发出者的语音特征信息、特定发音和与其对应文字的对应关系,实现视频中语音的精确识别,最终获得精确的视频字幕。
Description
技术领域
本发明属于字幕制作技术领域,尤其涉及一种视频的字幕生成方法及装置。
背景技术
通常情况下音视频字幕的制作方法一般有两种,一种是完全手工操作,字幕制作者边听音频边录入文字,之后对时间轴进行校对生成字幕文件,最后将可将字幕外挂或内置,得到具有字幕的音视频文件。另一种字幕制作方法相对高效一点,该方法通过使用语音识别技术,把音频识别为文字,通过语音间的停顿自动断句,生成带有时间轴的字幕文件,最后经过人工审核得到最终的字幕文件,但这种方法下的语音识别正确率并不很高。而且由于教育类音视频文件录制的是不同老师讲授课程的教育音视频,而不同老师的语速、口音、普通话标准程度等都不相同,因此,会进一步降低音视频中语音的识别率,导致生成的字幕文件准确率低下。
发明内容
本发明的目的在于提供一种视频的字幕生成方法及装置,旨在解决由于现有技术无法提供一种有效的视频字幕生成方法,导致字幕准确性不高、生成效率低下的问题。
一方面,本发明提供了一种视频的字幕生成方法,所述方法包括下述步骤:
获取输入的视频文件中包含的音频数据,提取所述音频数据对应语音的特征信息;
根据所述提取的特征信息,在预设的数据库中匹配对应的说话者,根据所述说话者的标识获取所述说话者的语音字典,所述语音字典存储了所述说话者的预设语音和与所述预设语音对应的文字;
根据所述得到的特征信息以及所述说话者的语音字典,对所述音频数据对应的语音进行语音识别,得到对应的文字;
根据所述视频文件的时间轴对所述识别得到的文字进行校对,以得到与所述视频同步的字幕文件。
另一方面,本发明提供了一种视频的字幕生成装置,所述装置包括:
语音特征提取单元,用于获取输入的视频文件中包含的音频数据,提取所述音频数据对应语音的特征信息;
语音字典获取单元,用于根据所述提取的特征信息,在预设的数据库中匹配对应的说话者,根据所述说话者的标识获取所述说话者的语音字典,所述语音字典存储了所述说话者的预设语音和与所述预设语音对应的文字;
语音识别单元,用于根据所述得到的特征信息以及所述说话者的语音字典,对所述音频数据对应的语音进行语音识别,得到对应的文字;以及
字幕生成单元,用于根据所述视频文件的时间轴对所述识别得到的文字进行校对,以得到与所述视频同步的字幕文件。
本发明在生成字幕时,获取输入的视频文件中的音频数据,提取音频数据对应语音的特征信息,根据提取的特征信息,在预设的数据库中匹配对应的说话者,进而根据说话者的标识获取说话者的语音字典,根据得到的特征信息以及说话者的语音字典,对音频数据对应的语音进行语音识别,得到对应的文字,根据视频文件的时间轴对识别得到的文字进行校对,以得到与视频同步的字幕文件,从而在语音识别时结合语音发出者的语音特征信息、特定发音和与其对应文字对应关系,实现视频中语音的精确识别,最终获得精确的视频字幕。
附图说明
图1是本发明实施例一提供的视频的字幕生成方法的实现流程图;
图2是本发明实施例二提供的视频的字幕生成方法的实现流程图;
图3是本发明实施例三提供的视频的字幕生成装置的结构示意图;以及
图4是本发明实施例四提供的视频的字幕生成装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述:
实施例一:
图1示出了本发明实施例一提供的视频的字幕生成方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S101中,获取输入的视频文件中包含的音频数据,提取该音频数据对应语音的特征信息。
本发明实施例适用于字幕制作或视频播放设备,或字幕制作系统、视频播放系统,特别适用于对教育类视频的字幕制作,尤其适用于单个人员(说话者)讲解的教育类视频课程。优选地,当用户输入或导入需要制作字幕的视频时,对输入的视频文件进行转码操作,得到包含音频数据的音频文件,从而简化音频数据的获取过程。在得到音频数据后,提取该音频数据对应的说话者语音或声音的特征信息,其中,说话者是指视频中说话的人,在教育类视频中说话者一般为单个老师、讲师或培训师,而语音或声音特征信息为响度、音调、音色等表征说话者声音特征的信息。
在步骤S102中,根据提取的特征信息,在预设的数据库中匹配对应的说话者,根据该说话者的标识获取该说话者的语音字典,语音字典存储了说话者的预设语音和与预设语音对应的文字。
在本发明实施例中,预先构建一数据库,该数据库中存储有说话者的声音特征等记录。作为示例地,例如,在数据库记录中以说话者标识为索引,存储有说话者的声音特征信息,进一步地可存储有说话者语音字典标识,语音字典标识则关联有对应的语音字典。由于每个人说话时所带的乡土口音、发音准确度等可能都不相同,因此,在本发明实施例中通过为每个说话者构建语音字典,以提高语音识别的准确率,语音字典记录了说话者个人语音和文字的对应关系,例如,说话者特定的发音和该发音对应的文字、说话者语音多次识别过程中有误的发音和对应正确的文字,等等。
在匹配说话者时,具体地,可通过将提取的特征信息和数据库中的特征信息进行匹配,从而匹配得到对应的说话者,进而根据该说话者的标识获取该说话者的语音字典。
在步骤S103中,根据得到的特征信息以及说话者的语音字典,对音频数据对应的语音进行语音识别,得到对应的文字。
在本发明实施例中,在对音频数据对应的语音进行语音识别时,通过语音识别算法(例如,基于模式匹配的动态时间规整法DTW、隐马尔可夫模型法HMM、基于人工神经网络识别法ANN等)并结合并发明实施例的说话者语音字典,对视频中说话者的语音进行识别。优选地,在使用语音识别算法对语音进行识别时,若识别过程中语音识别算法识别正确的概率较高时则可直接使用语音识别算法进行识别即可,若识别概率较低时,则结合发明实施例的说话者语音字典进行语音识别,从而在保证语音识别的准确率的同时,提高语音识别效率。
在步骤S104中,根据视频文件的时间轴对识别得到的文字进行校对,以得到与视频同步的字幕文件。
本发明实施例在生成字幕时,获取输入的视频文件中的音频数据,提取音频数据对应语音的特征信息,根据提取的特征信息,在预设的数据库中匹配对应的说话者,进而根据说话者的标识获取说话者的语音字典,根据得到的特征信息以及说话者的语音字典,对音频数据对应的语音进行语音识别,得到对应的文字,根据视频文件的时间轴对识别得到的文字进行校对,以得到与视频同步的字幕文件,从而在语音识别时结合语音发出者的语音特征信息、特定发音和与其对应文字对应关系,实现视频中语音的精确识别,最终获得精确的视频字幕。
实施例二:
图2示出了本发明实施例二提供的视频的字幕生成方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S201中,对说话者进行语音采样,提取说话者语音的特征信息,将说话者的标识和说话者的特征信息关联起来并存储到预设的数据库中。
在本发明实施例中,说话者是指待制作字幕的视频中的说话人员,在教育类视频中说话者一般为单个老师、讲师或培训师。为了提高后续语音识别的准确性,在这里预先对说话者进行语音采样,提取说话者语音的特征信息,将说话者的标识和说话者的特征信息关联起来并存储到预先构建的数据库中,以用于后续说话者的匹配。
在步骤S202中,对采样得到的语音进行语音识别,得到样本语音和与样本语音对应的文字,将样本语音和与样本语音对应的文字存储到语音字典。
在本发明实施例中,为了得到说话者的语音字典,需要对采样得到的语音进行语音识别,得到样本语音和与样本语音对应的文字。在得到样本语音和与样本语音对应的文字时,由于说话者带有一定口音且发音准确性可能不高,因此,在需要时可对对应的文字(即识别得到的文字)进行修改、改正,以得到样本语音和与样本语音对应的正确文字。最后,将样本语音和与样本语音对应的正确文字存储到语音字典中,以用于构建说话者的语音字典。
在步骤S203中,获取输入的视频文件中包含的音频数据,提取该音频数据对应语音的特征信息。
在步骤S204中,根据提取的特征信息,在预设的数据库中匹配对应的说话者,根据该说话者的标识获取该说话者的语音字典,语音字典存储了说话者的预设语音和与预设语音对应的文字。
在步骤S205中,根据得到的特征信息以及说话者的语音字典,对音频数据对应的语音进行语音识别,得到对应的文字。
在本发明实施例中,步骤S203至步骤S205可参考实施一中步骤S101至S103的描述,在此不再赘述。
在步骤S206中,根据视频文件的时间轴对识别得到的文字进行校对,以得到与视频同步的字幕文件。
在本发明实施例中,优选地,在对识别得到的文字进行校对之前,若接收到用户输入的对文字进行修改的指令时,对文字进行修改,更新识别得到的文字,从而进一步提高识别准确率。
进一步优选地,建立音频数据对应的语音与更新文字之间的对应关系,将对应关系存储到语音字典中,实现字幕制作过程中说话者语音字幕的自我学习、自我更新,从而不断完善语音字典,提高后续视频文件中语音的识别准确率。另一方面,语音字典在前期也无需一次性构造,降低语音字典构建的成本。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。
实施例三:
图3示出了本发明实施例三提供的视频的字幕生成装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分,其中包括:
语音特征提取单元31,用于获取输入的视频文件中包含的音频数据,提取音频数据对应语音的特征信息;
语音字典获取单元32,用于根据提取的特征信息,在预设的数据库中匹配对应的说话者,根据说话者的标识获取说话者的语音字典,语音字典存储了说话者的预设语音和与预设语音对应的文字;
语音识别单元33,用于根据得到的特征信息以及说话者的语音字典,对音频数据对应的语音进行语音识别,得到对应的文字;以及
字幕生成单元34,用于根据视频文件的时间轴对识别得到的文字进行校对,以得到与视频同步的字幕文件。
在本发明实施例中,视频的字幕生成装置的各单元可由相应的硬件或软件单元实现,各单元可以为独立的软、硬件单元,也可以集成为视频播放设备的一个软、硬件单元,在此不用以限制本发明。各单元的具体实施方式可参考实施例一的描述,在此不再赘述。
实施例四:
图4示出了本发明实施例四提供的视频的字幕生成装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分,其中包括:
特征关联单元41,用于对说话者进行语音采样,提取说话者语音的特征信息,将说话者的标识和说话者的特征信息关联起来并存储到预设的数据库中;
字典构造单元42,用于对采样得到的语音进行语音识别,得到样本语音和与样本语音对应的文字,将样本语音和与样本语音对应的文字存储到语音字典;
语音特征提取单元43,用于获取输入的视频文件中包含的音频数据,提取音频数据对应语音的特征信息;
语音字典获取单元44,用于根据提取的特征信息,在预设的数据库中匹配对应的说话者,根据说话者的标识获取说话者的语音字典,语音字典存储了说话者的预设语音和与预设语音对应的文字;
语音识别单元45,用于根据得到的特征信息以及说话者的语音字典,对音频数据对应的语音进行语音识别,得到对应的文字;
文字更新单元46,用于当接收到用户输入的对文字进行修改的指令时,对文字进行修改,更新识别得到的文字;
关系存储单元47,用于建立音频数据对应的语音与更新文字之间的对应关系,将对应关系存储到语音字典中;以及
字幕生成单元48,用于根据视频文件的时间轴对识别得到的文字进行校对,以得到与视频同步的字幕文件。
其中,语音特征提取单元43包括:
文件转码单元431,用于对输入的视频文件进行转码操作,得到包含音频数据的音频文件。
在本发明实施例中,视频的字幕生成装置的各单元可由相应的硬件或软件单元实现,各单元可以为独立的软、硬件单元,也可以集成为一个软、硬件单元,在此不用以限制本发明。各单元的具体实施方式可参考实施例二的描述,在此不再赘述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种视频的字幕生成方法,其特征在于,所述方法包括下述步骤:
获取输入的视频文件中包含的音频数据,提取所述音频数据对应语音的特征信息;
根据所述提取的特征信息,在预设的数据库中匹配对应的说话者,根据所述说话者的标识获取所述说话者的语音字典,所述语音字典存储了所述说话者的预设语音和与所述预设语音对应的文字;
根据所述得到的特征信息以及所述说话者的语音字典,对所述音频数据对应的语音进行语音识别,得到对应的文字;
根据所述视频文件的时间轴对所述识别得到的文字进行校对,以得到与所述视频同步的字幕文件。
2.如权利要求1所述的方法,其特征在于,获取输入的视频文件中包含的音频数据的步骤之前,所述方法还包括:
对所述说话者进行语音采样,提取所述说话者语音的特征信息,将所述说话者的标识和说话者的特征信息关联起来并存储到所述预设的数据库中;
对所述采样得到的语音进行语音识别,得到样本语音和与所述样本语音对应的文字,将所述样本语音和与所述样本语音对应的文字存储到所述语音字典。
3.如权利要求1所述的方法,其特征在于,对所述音频数据对应的语音进行语音识别,得到对应的文字的步骤之后,根据所述视频文件的时间轴对所述识别得到的文字进行校对的步骤之前,所述方法还包括:
当接收到用户输入的对所述文字进行修改的指令时,对所述文字进行修改,更新所述识别得到的文字。
4.如权利要求3所述的方法,其特征在于,更新所述识别得到的文字的步骤之后,所述方法还包括:
建立所述音频数据对应的语音与所述更新文字之间的对应关系,将所述对应关系存储到所述语音字典中。
5.如权利要求1所述的方法,其特征在于,获取输入的视频文件中包含的音频数据的步骤,包括:
对所述输入的视频文件进行转码操作,得到包含所述音频数据的音频文件。
6.一种视频的字幕生成装置,其特征在于,所述装置包括:
语音特征提取单元,用于获取输入的视频文件中包含的音频数据,提取所述音频数据对应语音的特征信息;
语音字典获取单元,用于根据所述提取的特征信息,在预设的数据库中匹配对应的说话者,根据所述说话者的标识获取所述说话者的语音字典,所述语音字典存储了所述说话者的预设语音和与所述预设语音对应的文字;
语音识别单元,用于根据所述得到的特征信息以及所述说话者的语音字典,对所述音频数据对应的语音进行语音识别,得到对应的文字;以及
字幕生成单元,用于根据所述视频文件的时间轴对所述识别得到的文字进行校对,以得到与所述视频同步的字幕文件。
7.如权利要求6所述的装置,其特征在于,所述装置还包括:
特征关联单元,用于对所述说话者进行语音采样,提取所述说话者语音的特征信息,将所述说话者的标识和说话者的特征信息关联起来并存储到所述预设的数据库中;以及
字典构造单元,用于对所述采样得到的语音进行语音识别,得到样本语音和与所述样本语音对应的文字,将所述样本语音和与所述样本语音对应的文字存储到所述语音字典。
8.如权利要求6所述的装置,其特征在于,所述装置还包括:
文字更新单元,用于当接收到用户输入的对所述文字进行修改的指令时,对所述文字进行修改,更新所述识别得到的文字。
9.如权利要求8所述的装置,其特征在于,所述装置还包括:
关系存储单元,用于建立所述音频数据对应的语音与所述更新文字之间的对应关系,将所述对应关系存储到所述语音字典中。
10.如权利要求6所述的装置,其特征在于,所述语音特征提取单元包括:
文件转码单元,用于对所述输入的视频文件进行转码操作,得到包含所述音频数据的音频文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610701574.0A CN106328146A (zh) | 2016-08-22 | 2016-08-22 | 一种视频的字幕生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610701574.0A CN106328146A (zh) | 2016-08-22 | 2016-08-22 | 一种视频的字幕生成方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106328146A true CN106328146A (zh) | 2017-01-11 |
Family
ID=57742666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610701574.0A Pending CN106328146A (zh) | 2016-08-22 | 2016-08-22 | 一种视频的字幕生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106328146A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107241616A (zh) * | 2017-06-09 | 2017-10-10 | 腾讯科技(深圳)有限公司 | 视频台词提取方法、装置及存储介质 |
CN108184135A (zh) * | 2017-12-28 | 2018-06-19 | 泰康保险集团股份有限公司 | 字幕生成方法及装置、存储介质及电子终端 |
CN108600773A (zh) * | 2018-04-25 | 2018-09-28 | 腾讯科技(深圳)有限公司 | 字幕数据推送方法、字幕展示方法、装置、设备及介质 |
CN108831473A (zh) * | 2018-03-30 | 2018-11-16 | 联想(北京)有限公司 | 一种音频处理方法及装置 |
CN109275009A (zh) * | 2018-09-29 | 2019-01-25 | 安徽听见科技有限公司 | 一种控制音频与文本同步的方法及装置 |
CN109920428A (zh) * | 2017-12-12 | 2019-06-21 | 杭州海康威视数字技术股份有限公司 | 一种笔录录入方法、装置、电子设备及存储介质 |
CN110475146A (zh) * | 2019-09-05 | 2019-11-19 | 珠海市杰理科技股份有限公司 | 字幕矫正方法、装置及智能音箱 |
CN110914898A (zh) * | 2018-05-28 | 2020-03-24 | 北京嘀嘀无限科技发展有限公司 | 一种用于语音识别的系统和方法 |
WO2020098115A1 (zh) * | 2018-11-16 | 2020-05-22 | 北京微播视界科技有限公司 | 字幕添加方法、装置、电子设备及计算机可读存储介质 |
WO2021120190A1 (zh) * | 2019-12-20 | 2021-06-24 | 深圳市欢太科技有限公司 | 数据处理方法、装置、电子设备和存储介质 |
CN113723342A (zh) * | 2021-09-08 | 2021-11-30 | 北京奇艺世纪科技有限公司 | 一种字幕显示方法、装置、电子设备及可读存储介质 |
CN113891168A (zh) * | 2021-10-19 | 2022-01-04 | 北京有竹居网络技术有限公司 | 字幕处理方法、装置、电子设备和存储介质 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259653A (ja) * | 1999-03-09 | 2000-09-22 | Mitsubishi Electric Corp | 音声認識装置及び音声認識方法 |
CN1889171A (zh) * | 2005-06-29 | 2007-01-03 | 诺基亚公司 | 用于识别字符/字符串的语音识别方法和系统 |
CN101458928A (zh) * | 2007-12-10 | 2009-06-17 | 富士通株式会社 | 语音识别装置 |
CN101510222A (zh) * | 2009-02-20 | 2009-08-19 | 北京大学 | 一种多层索引语音文档检索方法及其系统 |
CN101859565A (zh) * | 2010-06-11 | 2010-10-13 | 深圳创维-Rgb电子有限公司 | 一种在电视机上实现语音识别的系统及其方法 |
CN102084417A (zh) * | 2008-04-15 | 2011-06-01 | 移动技术有限责任公司 | 现场维护语音到语音翻译的系统和方法 |
CN103561217A (zh) * | 2013-10-14 | 2014-02-05 | 深圳创维数字技术股份有限公司 | 一种生成字幕的方法及终端 |
CN103578467A (zh) * | 2013-10-18 | 2014-02-12 | 威盛电子股份有限公司 | 声学模型的建立方法、语音辨识方法及其电子装置 |
CN103605709A (zh) * | 2013-11-12 | 2014-02-26 | 天脉聚源(北京)传媒科技有限公司 | 一种分布式音视频处理装置及处理方法 |
CN103811000A (zh) * | 2014-02-24 | 2014-05-21 | 中国移动(深圳)有限公司 | 语音识别系统及方法 |
CN105094717A (zh) * | 2015-07-15 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 基于语音输入的打印方法、打印装置和打印机 |
CN105161104A (zh) * | 2015-07-31 | 2015-12-16 | 北京云知声信息技术有限公司 | 一种语音处理方法及装置 |
CN105408952A (zh) * | 2013-02-21 | 2016-03-16 | 谷歌技术控股有限责任公司 | 识别带口音的语音 |
CN105635782A (zh) * | 2015-12-28 | 2016-06-01 | 魅族科技(中国)有限公司 | 一种字幕输出方法及装置 |
CN105704538A (zh) * | 2016-03-17 | 2016-06-22 | 广东小天才科技有限公司 | 一种音视频字幕生成方法及系统 |
-
2016
- 2016-08-22 CN CN201610701574.0A patent/CN106328146A/zh active Pending
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259653A (ja) * | 1999-03-09 | 2000-09-22 | Mitsubishi Electric Corp | 音声認識装置及び音声認識方法 |
CN1889171A (zh) * | 2005-06-29 | 2007-01-03 | 诺基亚公司 | 用于识别字符/字符串的语音识别方法和系统 |
CN101458928A (zh) * | 2007-12-10 | 2009-06-17 | 富士通株式会社 | 语音识别装置 |
CN102084417A (zh) * | 2008-04-15 | 2011-06-01 | 移动技术有限责任公司 | 现场维护语音到语音翻译的系统和方法 |
CN101510222A (zh) * | 2009-02-20 | 2009-08-19 | 北京大学 | 一种多层索引语音文档检索方法及其系统 |
CN101859565A (zh) * | 2010-06-11 | 2010-10-13 | 深圳创维-Rgb电子有限公司 | 一种在电视机上实现语音识别的系统及其方法 |
CN105408952A (zh) * | 2013-02-21 | 2016-03-16 | 谷歌技术控股有限责任公司 | 识别带口音的语音 |
CN103561217A (zh) * | 2013-10-14 | 2014-02-05 | 深圳创维数字技术股份有限公司 | 一种生成字幕的方法及终端 |
CN103578467A (zh) * | 2013-10-18 | 2014-02-12 | 威盛电子股份有限公司 | 声学模型的建立方法、语音辨识方法及其电子装置 |
CN103605709A (zh) * | 2013-11-12 | 2014-02-26 | 天脉聚源(北京)传媒科技有限公司 | 一种分布式音视频处理装置及处理方法 |
CN103811000A (zh) * | 2014-02-24 | 2014-05-21 | 中国移动(深圳)有限公司 | 语音识别系统及方法 |
CN105094717A (zh) * | 2015-07-15 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 基于语音输入的打印方法、打印装置和打印机 |
CN105161104A (zh) * | 2015-07-31 | 2015-12-16 | 北京云知声信息技术有限公司 | 一种语音处理方法及装置 |
CN105635782A (zh) * | 2015-12-28 | 2016-06-01 | 魅族科技(中国)有限公司 | 一种字幕输出方法及装置 |
CN105704538A (zh) * | 2016-03-17 | 2016-06-22 | 广东小天才科技有限公司 | 一种音视频字幕生成方法及系统 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107241616A (zh) * | 2017-06-09 | 2017-10-10 | 腾讯科技(深圳)有限公司 | 视频台词提取方法、装置及存储介质 |
CN109920428A (zh) * | 2017-12-12 | 2019-06-21 | 杭州海康威视数字技术股份有限公司 | 一种笔录录入方法、装置、电子设备及存储介质 |
CN108184135A (zh) * | 2017-12-28 | 2018-06-19 | 泰康保险集团股份有限公司 | 字幕生成方法及装置、存储介质及电子终端 |
CN108831473B (zh) * | 2018-03-30 | 2021-08-17 | 联想(北京)有限公司 | 一种音频处理方法及装置 |
CN108831473A (zh) * | 2018-03-30 | 2018-11-16 | 联想(北京)有限公司 | 一种音频处理方法及装置 |
CN108600773A (zh) * | 2018-04-25 | 2018-09-28 | 腾讯科技(深圳)有限公司 | 字幕数据推送方法、字幕展示方法、装置、设备及介质 |
CN110914898B (zh) * | 2018-05-28 | 2024-05-24 | 北京嘀嘀无限科技发展有限公司 | 一种用于语音识别的系统和方法 |
CN110914898A (zh) * | 2018-05-28 | 2020-03-24 | 北京嘀嘀无限科技发展有限公司 | 一种用于语音识别的系统和方法 |
CN109275009A (zh) * | 2018-09-29 | 2019-01-25 | 安徽听见科技有限公司 | 一种控制音频与文本同步的方法及装置 |
CN109275009B (zh) * | 2018-09-29 | 2021-10-19 | 安徽听见科技有限公司 | 一种控制音频与文本同步的方法及装置 |
WO2020098115A1 (zh) * | 2018-11-16 | 2020-05-22 | 北京微播视界科技有限公司 | 字幕添加方法、装置、电子设备及计算机可读存储介质 |
CN110475146B (zh) * | 2019-09-05 | 2022-01-14 | 珠海市杰理科技股份有限公司 | 字幕矫正方法、装置及智能音箱 |
CN110475146A (zh) * | 2019-09-05 | 2019-11-19 | 珠海市杰理科技股份有限公司 | 字幕矫正方法、装置及智能音箱 |
WO2021120190A1 (zh) * | 2019-12-20 | 2021-06-24 | 深圳市欢太科技有限公司 | 数据处理方法、装置、电子设备和存储介质 |
CN113723342A (zh) * | 2021-09-08 | 2021-11-30 | 北京奇艺世纪科技有限公司 | 一种字幕显示方法、装置、电子设备及可读存储介质 |
CN113723342B (zh) * | 2021-09-08 | 2023-09-29 | 北京奇艺世纪科技有限公司 | 一种字幕显示方法、装置、电子设备及可读存储介质 |
CN113891168A (zh) * | 2021-10-19 | 2022-01-04 | 北京有竹居网络技术有限公司 | 字幕处理方法、装置、电子设备和存储介质 |
CN113891168B (zh) * | 2021-10-19 | 2023-12-19 | 北京有竹居网络技术有限公司 | 字幕处理方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106328146A (zh) | 一种视频的字幕生成方法及装置 | |
CN101739870B (zh) | 交互式语言学习系统及交互式语言学习方法 | |
US7127397B2 (en) | Method of training a computer system via human voice input | |
CN108133632B (zh) | 英语听力的训练方法及系统 | |
KR19990044575A (ko) | 대화형 언어훈련용 장치 | |
CN111462553B (zh) | 一种基于视频配音和纠音训练的语言学习方法及系统 | |
CN101105939A (zh) | 发音指导方法 | |
WO2007055233A1 (ja) | 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム | |
US20070067174A1 (en) | Visual comparison of speech utterance waveforms in which syllables are indicated | |
Qian et al. | A two-pass framework of mispronunciation detection and diagnosis for computer-aided pronunciation training | |
CN102723077B (zh) | 汉语教学语音合成方法及装置 | |
CN111613224A (zh) | 一种个性化语音合成方法及装置 | |
Ibrahim et al. | Improve design for automated Tajweed checking rules engine of Quranic verse recitation: a review | |
KR101992370B1 (ko) | 말하기 학습방법 및 학습시스템 | |
CN108665901B (zh) | 一种音素/音节提取方法及装置 | |
Ai | Automatic pronunciation error detection and feedback generation for call applications | |
Chung et al. | A study on the intelligibility of Korean-Accented English: Possibilities of implementing AI applications in English education | |
Koffi | A tutorial on acoustic phonetic feature extraction for automatic speech recognition (ASR) and text-to-speech (TTS) applications in African languages | |
KR101920653B1 (ko) | 비교음 생성을 통한 어학학습방법 및 어학학습프로그램 | |
Nouza et al. | System for producing subtitles to internet audio-visual documents | |
Bai | Pronunciation Tutor for Deaf Children based on ASR | |
Bratakos et al. | Toward the automatic generation of Cued Speech | |
Khattak et al. | Glocalization of English: An Analysis of the Phonological Deviations of Semivowels and Liquids in Pakistani English | |
KR102610871B1 (ko) | 청각장애인 음성언어훈련 시스템 | |
CN112951208B (zh) | 语音识别的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170111 |