CN105245917B

CN105245917B - 一种多媒体语音字幕生成的系统和方法

Info

Publication number: CN105245917B
Application number: CN201510628334.8A
Authority: CN
Inventors: 徐信
Original assignee: 徐信
Current assignee: Beijing Zhongke Mosi Technology Co.,Ltd.
Priority date: 2015-09-28
Filing date: 2015-09-28
Publication date: 2018-05-04
Anticipated expiration: 2035-09-28
Also published as: CN105245917A

Abstract

本发明提供一种多媒体语音字幕生成系统和方法，所述字幕生成系统包括控制模块、字幕处理模块、语音处理模块、校对分段模块和字幕输出模块，所述字幕处理模块、语音处理模块、校对分段模和字幕输出模块均连接在所述控制模块上，所述控制模块另一端连接云端服务器，所述方法通过对音视频的获取、分析、识别、切分、生成字幕、校准和后期加工等步骤，完成多媒体语音字幕的自动生成，解决了影视字幕依靠手工拍字幕局限性，无论音视频文件是否具有语音标准文档（即台词），均可自动高效连续生成字幕，人性化的人机交互系统可根据实际情况选择字幕样式，包括每行字数、行数和字体等，多次精准校对使生成的字幕与视频匹配率达100%。

Description

一种多媒体语音字幕生成的系统和方法

技术领域

本发明属于多媒体字幕领域，具体涉及一种多媒体语音字幕生成的系统和方法。

背景技术

影视节目上字幕是国家广电总局的规定和硬性要求。多媒体中的音频语音及时转换成文字并生成字幕，目前是属于速记和字幕员的任务。影视节目中的音频语音生成字幕可分为两类：

第一类：没有撰写好的语音标准文档（即台词）

这一类影视节目的音频语音字幕的生成包含两方面的工作。首先把没有语音标准文档（即台词）的音频语音转换为文字，俗称“扒词”。目前仍为人工键盘速记完成，电视台和影视公司一般外包给速记公司完成。其次，根据“扒好的词”，由字幕员应用相应的字幕软件手工完成时间轴，俗称为“拍字幕”。这两项工作对于影视公司来说，是“烦人”的工作，且效率低，工序繁多。电视台和影视公司为此要付出大量的人力和物力。

第二类：已经具有撰写好的语音标准文档（即台词）

这一类影视作品的音视频语音字幕的生成一般是植入“台词”后，通过拍字幕软件手工完成时间轴和字幕后期。其中台词植入后的手工拍字幕仍要付出大量的人力物力。

在现有技术中（专利号：201220227996.6（已授权）、专利申请号201310148995.1（实质审查中）、201510364419X）实现了精准完成连续自然语音文本化，该技术很好的解决了影视字幕前期的“扒词”的难题；在此基础上，根据时间戳，进一步实现了为影视字幕自动生成SRT或可适用于Final Cut Pro（该软件运行于MAC OS）的XML文件，解决了影视字幕依靠手工“拍字幕”的难题。

发明内容

为了解决上述问题，本发明提供一种多媒体语音字幕生成系统，所述字幕生成系统包括控制模块、字幕处理模块、语音处理模块、校对分段模块和字幕输出模块，所述字幕处理模块、语音处理模块、校对分段模和字幕输出模块均连接在所述控制模块上，所述控制模块另一端连接云端服务器；

进一步地，所述控制模块包括音视频获取单元和存储集成单元，所述音视频获取单元连接所述存储集成单元，所述音视频获取单元输出为获取的要生成字幕的多媒体音视频文件或音视频流，所述存储集成单元内包括获取的音视频文件、执行标准和系统所生成的文件；

进一步地，所述字幕处理模块包括字数选择单元、行数选择单元和显示标准生成单元，所述字数选择单元通过行数选择单元连接所述显示标准生成单元，所述字数选择单元和显示标准生成单元另一端均连接所述控制模块；

进一步地，所述字数选择单元为控制模块提供的影视节目有关规定或要求屏幕单行显示的最多字数，所述行数选择单元为根据影视节目有关规定或要求所确定显示行数，所述显示标准生成模块输出为自动进行换行换帧显示的显示标准；

进一步地，所述语音处理模块包括音频分析单元、音频识别单元和音频切分单元，所述音频分析单元通过所述音频识别单元连接所述音频切分单元；

进一步地，所述音频分析单元输出为音视频文件分析出的独立于视频文件中的无语音段、音乐段和噪音段的字幕语音段，所述音频识别单元包括无语音标准文档模型和有语音标准文档模型；

进一步地，所述无语音标准文档模型，音频识别单元输出为通过云端语音识别引擎转化文本，完成“扒词”工作的字幕语音段，所述有语音标准文档模型输出为包括字幕和语音的字幕语音段；

进一步地，所述云端语音识别引擎包括汉语语音分节处理模块和汉语语音识别模块；所述的汉语语音分节处理模块将输入的语音切分成小节，使得切分点在语音的停顿处或一句话完结处，所述切分点为语音能量的低点，汉语语音分节处理模块输出为针对输入语音的分段时间信息；所述汉语语音识别模块包括：汉语语音特征抽取单元、汉语语音到文字转换识别单元、汉语语音文字关联信息单元、汉语强制切分单元、汉语拼音标注单元、汉语日常词汇单元、汉语声学模型单元、汉语语言模型单元及新词自适应识别单元；

进一步地，所述音频切分单元输出为语音切分模型、断句分行模型、显示标准切分模型和语音字幕合成模型，所述语音切分模型将影视音频语音，依语意自动切分为分节语音片段，所述断句分行模型将影视作品的标准文档依语意断句分行显示，所述显示标准切分模型由波形图调整段句的切分，保证与显示标准相同，所述语音字幕合成模型将分行显示的显示标准文件调入音频片段进行语音与字幕的合成；

进一步地，所述校对分段模块包括字幕校对单元和字幕分段单元，所述字幕校对单元连接所述字幕分段单元；

进一步地，所述字幕校对单元包括语音波形校对模型，所述字幕语音波形校对模型对字幕再次复读，根据复读的语音波形图进行字幕与文字的校对，每一段对应一个字幕行，所述字幕分段单元为根据复读的语音波形图调整时间戳对字幕文字根据语意进行分段，对分段的字幕进行分隔；

进一步地，所述字幕输出模块包括三维一体生成单元、字幕效果编辑单元和字幕生成单元，所述字幕编辑效果单元两端分别连接所述三维一体生成单元和字幕生成单元；

进一步地，所述三维一体生成单元为校对无误的字幕文稿、对应的视频语音和图像三维一体生成文档，输出带时间戳的字幕文档，所述字幕文档可以是但不限于是SRT或XML格式，所述字幕编辑效果单元将带时间戳的字幕文档输入字幕效果编辑单元，继续进行字幕效果编辑，包括字体、字号的选择和字幕动态效果的编辑，实时编辑，实时显示编辑效果，所述字幕生成单元将编辑好的字幕生成文档输入到所述控制模块的存储集成单元，自动生成加载字幕的影视文件；

一种多媒体语音字幕生成方法，所述字幕生成方法包括以下步骤：

A、获取已经完成采集的音视频文件或音视频流；

B、字幕字数、行数选择与生成显示标准：选择每帧字幕的行数和每行最大字数；

C、将获得音视频流或音视频文件进行预处理：依语意切分音频语音与空白段;

D、对于没有语音标准文档影视节目，依据云端服务器提供的语音识别引擎，按照语音识别方法完成“扒词”；

E、对于有语音标准文档的影视节目的字幕，将根据显示标准和句意分行显示文本文件；

F、依据语音波形图调整时间戳，并对调整时间戳后的语音文本依据波形图及回放的语音进行修改;

G、选择时间戳文档的类型：所述时间戳文档的类型包括SRT和ＸＭＬ格式或其他格式；

H、进行字幕效果编辑；

I、生成字幕并输出；

进一步地，所述步骤C中，将获得音视频流或音视频文件进行预处理，对音视频流或音视频文件分析、判断，依语意对音频中的语音段按句进行切分，并分离出音频中的噪音段、音乐段和空白段，其中多人语音的叠加按噪音处理，然后对每一段的起始点和结束点进行时间标序，取得每一段的时间戳；

进一步地，所述步骤E中，对于有语音标准文档的影视节目的字幕，首先由音视频流或音视频文件中分离出音频，然后对音频语音，依语意自动切分为分节语音片段，并分离出音频中的噪音段、音乐段和空白段；再将影视作品的标准文档依语意断句分行显示；接着将分行显示的标准文本文件调入系统音频片段文字显示行，最后依据音频波形图，调整段句的切分，保证与显示标准句数和行数相同；

进一步地，所述步骤F中，依据语音波形图调整时间戳为通过计算机程序切分所获取时间戳的误差，并对调整时间戳后的语音文本依据波形图进行修改，其修改方式包括：通过人工跟读进行再次语音识别、直接进行再次语音识别及键盘修改；对上述修改后的语音文本进行精准校对，并对精准校对后的语音文本，依语意分段处理。

本发明的有益效果：本发明解决了影视字幕依靠手工拍字幕局限性，带来的有益效果如下：1、实时采集音视频语音信息，信息采集不间断，到毫秒级，采集率达到100%；信息丢失率为0；2、自动化将多媒体中的音频语音及时转换成文字并生成字幕；3、无论音视频文件是否具有语音标准文档（即台词），均可高效连续生成字幕；4、人性化的人机交互系统可根据实际情况选择字幕样式，包括每行字数、行数和字体等；5、多次精准校对使生成的字幕与视频匹配率达100%。

附图说明

图1为本发明字幕生成系统模块图；

图2为本发明字幕生成方法流程图；

图3为本发明字幕生成方法步骤B细节流程图；

图4为本发明字幕生成方法步骤C细节流程图；

图5为本发明字幕生成方法步骤F细节流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

下面结合附图和具体实施例对本发明作进一步说明，但不作为对本发明的限定。下面为本发明的举出最佳实施例：

如图1所示为本发明一种多媒体语音字幕生成系统的模块图，所述字幕生成系统包括控制模块、字幕处理模块、语音处理模块、校对分段模块和字幕输出模块。所述字幕处理模块、语音处理模块、校对分段模和字幕输出模块均连接在所述控制模块上，所述控制模块另一端连接云端服务器。

所述控制模块包括音视频获取单元和存储集成单元，所述音视频获取单元连接所述存储集成单元，所述音视频获取单元获取要生成字幕的多媒体音视频文件或音视频流，所述存储集成单元用以存储音视频文件、云端执行标准和系统所生成的文件。

所述字幕处理模块包括字数选择单元、行数选择单元和显示标准生成，所述字数选择单元连接一端连接所述音视频获取模块另一端连接所述行数选择单元，所述显示标准生成连接所述行数选择单元另一端，所述字数选择单元根据影视节目有关规定或要求，确定屏幕单行显示的最多字数，系统提供由一至任意字数的选择功能，所述行数选择单元根据字数选择单元提供的字数信息确定显示行数，系统提供单行、多行显示的选择功能，所述显示标准生成即生成显示标准，所述显示标准根据字数选择单元和行数选择单元的结果自动进行换行换帧显示。

所述语音处理模块包括音频分析单元、音频识别单元和音频切分单元，所述音频分析单元通过所述音频识别单元连接所述音频切分单元，所述音频分析单元对音视频文件进行分析，找出视频文件中的无语音段、音乐段和噪音段，将上述分段分离独立于字幕语音段，所述音频识别单元分析字幕语音段，当该字幕语音段为没有语音标准文档（即台词）影视节目，音频识别单元采用语音识别技术，将字幕语音段通过云端语音识别引擎转化为文本，完成“扒词”工作，所述云端语音识别引擎包括汉语语音分节处理模块、汉语语音识别模块，所述云端语音识别引擎具体处理并实现上述识别工作，其中所述的汉语语音分节处理模块将输入的大段语音切分成细的小节，使得切分点在语音的停顿处或一句话完结处，所述切分点为语音能量的低点，每一小节的长短随讲话人的具体内容而不同，一般在10-20几个字。所述汉语语音分节处理模块输入的“语音数据”为引擎的“语音识别器”需要的语音汉语普通话语音数据。引擎的输出为针对输入语音的分段时间信息。

所述汉语语音识别模块包括：汉语语音特征抽取单元、汉语语音到文字转换识别单元、汉语语音文字关联信息单元、汉语强制切分单元、汉语拼音标注单元、汉语日常词汇单元、汉语声学模型单元、汉语语言模型单元及新词自适应识别单元。

a、汉语语音特征抽取单元：模块输入的为经过麦克风USB声卡录制的16K采样，PCM线性16位的分段后的汉语语音数据，该模块输出的为针对输入分段语音的美尔倒谱特征。

b、汉语语音到文字转换识别核心单元：输入的为被识别经过麦克风USB声卡录制的16K采样，PCM线性16位语音美尔倒谱特征，输出为本段语音的文字内容。

c、汉语语音文字关联信息单元：对于识别模块输出的文字和原始的经过麦克风USB声卡录制的16K采样，PCM线性16位语音建立时间对应关系。

d、汉语强制切分单元：输入为经过麦克风USB声卡录制的16K采样，PCM线性16位语音和该段语音被识别的标准文字答案，输出文字和语音的时间对应的信息。

e、汉语拼音标注单元：为用户输入的文字按照语言模型的要求进行拼音的标注，以备语言模型识别。

f、汉语日常词汇单元：该单元为标准汉语拼音标注使用，及为语言模型提供引导知识。

g、汉语声学模型单元：该模型单元为语音识别引擎提供声学指导知识。

上述的声学模型由下述步骤创建而成，获取多个标准教师语音；从所述多个标准教师语音中选择均衡的语音参数，即为所有标准语音教师的语音均数值，其中，所述的语音参数包括：声学参数、音高、节奏信息；

根据所述多个标准教师语音中的均衡的语音参数合成声调匹配语音；根据声调匹配语音及结合TD-PSOLA算法合成所述汉语声学模型单元。

h、汉语语言模型单元：该模型为语音识别引擎提供语言指导知识。

所述该汉语语音模型为现有技术中适用于提供语音指导知识及库的语音模型即可。

j、新词自适应识别单元：提供相应的工具，以便能加入新词并重新生成语言模型。对于系统用计算机进行文本输入第一次出现的专业词语的文本和拼音，以后语音中再出现该词语，系统就能够识别出来。

将语音流上传给语音识别引擎以后，按照上述的模块及单元自动完成没有语音标准文档（即台词）的字幕语音段的语音识别，当该字幕语音段为有语音标准文档（即台词）的影视节目或已经完成“扒词”工作，所述音频切分单元依据a语音切分模型、b断句分行模型、c显示标准切分模型和d语音字幕合成模型对字幕语音段进行切分处理，切分处理包括以下步骤：

a将影视音频语音，依语意自动切分为分节语音片段；

b 将影视作品的标准文档（即台词）依语意断句分行显示；

c 根据波形图调整段句的切分，保证与显示标准相同；

d 将分行显示的显示标准文件调入系统音频片段文字显示行。

所述校对分段模块包括字幕校对单元和字幕分段单元，所述字幕校对单元连接所述字幕分段单元，所述字幕校对单元对字幕语音进行复读，依据复读的语音波形图进行字幕与文字的校对，每一段对应一个字幕行，所述字幕分段单元根据语音波形图调整时间戳，并对字幕文字根据语意进行分段，对分段的字幕进行分隔，依语意分段处理在校对和分段的过程中始终保持视频语音的文字与语音、图像的一一对应的关联。

所述字幕输出模块包括三维一体生成单元、字幕效果编辑单元和字幕生成单元，所述字幕编辑效果单元两端分别连接所述三维一体生成单元和字幕生成单元，所述三维一体生成单元将校对无误的字幕文稿、对应的视频语音和图像三维一体生成文档，输出带时间戳的字幕文档，例如：SRT或XML文档，所述字幕编辑效果单元将的字幕文档（例如：SRT或XML文档）输入字幕效果编辑单元，继续进行字幕效果编辑，包括字体、字号的选择和字幕动态效果的编辑，实时编辑，实时显示编辑效果，所述字幕生成单元将编辑好的字幕生成文档，输入到控制模块的存储集成单元，自动生成加载字幕的影视文件，也可输出制作DVD光盘。

如图2所示为一种多媒体语音字幕生成方法的流程图，所述字幕生成方法包括以下步骤：

A、通过现场音视频信息采集系统或已经完成采集的音视频文件获得音视频流或音视频文件；

D、对于没有语音标准文档（即台词）影视节目，依据云端服务器提供的语音识别引擎，按照语音识别方法完成“扒词”；

E、对于有语音标准文档（即台词）的影视节目的字幕，将根据显示标准和句意分行显示文本文件；

F、依据语音波形图调整时间戳，对调整时间戳后的语音文本依据波形图进行修改，修改方式包括：通过人工跟读进行再次语音识别、直接进行再次语音识别及键盘修改；对上述修改后的语音文本进行精准校对，并对精准校对后的语音文本，依语意分段处理;

G、选择时间戳的文档类型：例如：SRT或ＸＭＬ；

H、进行字幕效果编辑；

I、生成字幕并输出。

所述步骤A中所述通过现场音视频信息采集系统或已经完成采集的音视频文件获得音视频流或音视频文件，包括连接到计算机的音视频输入设备，实施现场进行音视频语音信息的采集，然后传送给多媒体语音字幕生成系统，实时进行字幕处理。

所述步骤B 中所述字幕字数、行数选择与生成显示标准，具体为：如附图3所示的流程图。所述显示标准会选择每帧字幕的行数和每行最大字数。

所述步骤C中，将获得音视频流或音视频文件进行预处理，具体为：如图4所示，对音视频流或音视频文件分析、判断，依语意对音频中的语音段按句进行切分，并分离出音频中的噪音段、音乐段和空白段，其中多人语音的叠加按噪音处理。然后对每一段的起始点和结束点进行时间标序，取得每一段的时间戳。

所述步骤E中，对于有语音标准文档（即台词）的影视节目的字幕，将分行显示的标准文本文件调入系统音频片段文字显示行，具体为：如附图4，首先由音视频流或音视频文件中分离出音频，然后对音频语音，依语意自动切分为分节语音片段，并分离出音频中的噪音段、音乐段和空白段。

进一步的将影视作品的标准文档（即台词）依语意断句分行显示。

进一步的将分行显示的标准文本文件调入系统音频片段文字显示行。

进一步的依据音频波形图，调整段句的切分，保证与显示标准句数（行数）相同。

所述步骤F中，依据语音波形图调整时间戳具体为：如图5所示，通过计算机程序切分所获取时间戳误差，依据语音波形图及分段回放的语音，进行精准校对与分段处理。

以上所述的实施例，只是本发明较优选的具体实施方式的一种，本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims

1.一种多媒体语音字幕生成系统，其特征在于，所述字幕生成系统包括控制模块、字幕处理模块、语音处理模块、校对分段模块和字幕输出模块，所述字幕处理模块、语音处理模块、校对分段模和字幕输出模块均连接在所述控制模块上，所述控制模块另一端连接云端服务器,所述字幕处理模块包括字数选择单元、行数选择单元和显示标准生成单元，所述字数选择单元通过行数选择单元连接所述显示标准生成单元，所述字数选择单元和显示标准生成单元另一端均连接所述控制模块；

所述字数选择单元为控制模块提供的影视节目有关规定或要求屏幕单行显示的最多字数，所述行数选择单元为根据影视节目有关规定或要求确定显示行数，所述显示标准生成模块输出为自动进行换行换帧显示的显示标准。

2.根据权利要求1所述的字幕生成系统，其特征在于，所述控制模块包括音视频获取单元和存储集成单元，所述音视频获取单元连接所述存储集成单元，所述音视频获取单元输出为获取的生成字幕的多媒体音视频文件或音视频流，所述存储集成单元内包括获取的音视频文件、执行标准和系统所生成的文件。

3.根据权利要求1所述的字幕生成系统，其特征在于，所述语音处理模块包括音频分析单元、音频识别单元和音频切分单元，所述音频分析单元通过所述音频识别单元连接所述音频切分单元；

所述音频分析单元输出为音视频文件分析出的独立于视频文件中的无语音段、音乐段和噪音段的字幕语音段，所述音频识别单元包括无语音标准文档模型和有语音标准文档模型；

所述无语音标准文档模型，音频识别单元输出为通过云端语音识别引擎转化文本，完成“扒词”工作的字幕语音段，所述有语音标准文档模型输出为包括字幕和语音的字幕语音段；

所述音频切分单元输出为语音切分模型、断句分行模型、显示标准切分模型和语音字幕合成模型，所述语音切分模型将影视音频语音，依语意自动切分为分节语音片段，所述断句分行模型将影视作品的标准文档依语意断句分行显示，所述显示标准切分模型由波形图调整段句的切分，保证与显示标准相同，所述语音字幕合成模型将分行显示的显示标准文件调入音频片段进行语音与字幕的合成；

所述云端语音识别引擎包括汉语语音分节处理模块和汉语语音识别模块；所述的汉语语音分节处理模块将输入的语音切分成小节，使得切分点在语音的停顿处或一句话完结处，所述切分点为语音能量的低点，汉语语音分节处理模块输出为针对输入语音的分段时间信息；所述汉语语音识别模块包括：汉语语音特征抽取单元、汉语语音到文字转换识别单元、汉语语音文字关联信息单元、汉语强制切分单元、汉语拼音标注单元、汉语日常词汇单元、汉语声学模型单元、汉语语言模型单元及新词自适应识别单元。

4.根据权利要求1所述的字幕生成系统，其特征在于，所述校对分段模块包括字幕校对单元和字幕分段单元，所述字幕校对单元连接所述字幕分段单元；

所述字幕校对单元包括语音波形校对模型，所述字幕语音波形校对模型对字幕再次复读，根据复读的语音波形图进行字幕与文字的校对，每一段对应一个字幕行，所述字幕分段单元为根据复读的语音波形图调整时间戳，并对字幕文字根据语意进行分段，对分段的字幕进行分隔。

5.根据权利要求1所述的字幕生成系统，其特征在于，所述字幕输出模块包括三维一体生成单元、字幕效果编辑单元和字幕生成单元，所述字幕编辑效果单元两端分别连接所述三维一体生成单元和字幕生成单元；

所述三维一体生成单元为校对无误的字幕文稿、对应的视频语音和图像三维一体生成文档，输出带时间戳的字幕文档，所述字幕文档可以是但不限于是SRT或XML格式，所述字幕编辑效果单元将带时间戳的字幕文档输入字幕效果编辑单元，继续进行字幕效果编辑，包括字体、字号的选择和字幕动态效果的编辑，实时编辑，实时显示编辑效果，所述字幕生成单元将编辑好的字幕生成文档输入到所述控制模块的存储集成单元，自动生成加载字幕的影视文件。

6.一种多媒体语音字幕生成方法，应用上述权利要求1-5之一的字幕生成系统，其特征在于，所述字幕生成方法包括以下步骤：

A、获取已经完成采集的音视频文件或音视频流；

C、将获得音视频流或音视频文件进行预处理：依语意切分音频语音与空白段；

F、依据语音波形图调整时间戳，并对调整时间戳后的语音文本依据波形图及回放的语音进行修改；

G、选择时间戳文档的类型，所述时间戳文档的类型包括SRT和XML或其他类型；

H、进行字幕效果编辑；

I、生成字幕并输出。

7.根据权利要求6所述的字幕生成方法，其特征在于，所述步骤C中，将获得音视频流或音视频文件进行预处理，对音视频流或音视频文件分析、判断，依语意对音频中的语音段按句进行切分，并分离出音频中的噪音段、音乐段和空白段，其中多人语音的叠加按噪音处理，然后对每一段的起始点和结束点进行时间标序，取得每一段的时间戳。

8.根据权利要求6所述的字幕生成方法，其特征在于，所述步骤E中，对于有语音标准文档的影视节目的字幕，首先由音视频流或音视频文件中分离出音频，然后对音频语音，依语意自动切分为分节语音片段，并分离出音频中的噪音段、音乐段和空白段；再将影视作品的标准文档依语意断句分行显示；接着将分行显示的标准文本文件调入系统音频片段文字显示行，最后依据音频波形图，调整段句的切分，保证与显示标准句数和行数相同。

9.根据权利要求6所述的字幕生成方法，其特征在于，所述步骤F中，依据语音波形图调整时间戳为通过计算机程序切分所获取时间戳的误差，并对调整时间戳后的语音文本依据波形图进行修改，其修改方式包括：通过人工跟读进行再次语音识别、直接进行再次语音识别及键盘修改；对上述修改后的语音文本进行精准校对，并对精准校对后的语音文本，依语意分段处理。