CN106897379A - 语音文件的lrc时间轴文件自动生成方法及相关设备 - Google Patents
语音文件的lrc时间轴文件自动生成方法及相关设备 Download PDFInfo
- Publication number
- CN106897379A CN106897379A CN201710042000.1A CN201710042000A CN106897379A CN 106897379 A CN106897379 A CN 106897379A CN 201710042000 A CN201710042000 A CN 201710042000A CN 106897379 A CN106897379 A CN 106897379A
- Authority
- CN
- China
- Prior art keywords
- text
- voice
- file
- interval
- institute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/44—Browsing; Visualisation therefor
- G06F16/447—Temporal browsing, e.g. timeline
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明实施例公开一种语音文件的LRC时间轴文件自动生成方法及相关设备,该方法包括:当没有处理完所有的语音文件时,获取未经处理的语音文件及相应的录音稿文件;然后按照语音文件的语句间隔将语音文件分成多个语音区间,并记录每个语音区间的开始时间;再依据语音识别技术识别语音文件,生成与该语音文件对应的文本文件,其中,文本文件记录了与语音区间对应的文本的开始时间;最后将文本文件与录音稿文件进行对比,并生成LRC时间轴文件。可见,实施本发明实施例,能够智能地生成语音文件的LRC时间轴文件,省去了大量的人工工作,提高了效率,降低了成本。
Description
技术领域
本发明涉及多媒体技术领域,尤其涉及一种语音文件的LRC时间轴文件自动生成方法及相关设备。
背景技术
目前对于学习终端或者家教终端中的英语听说或者有声教材模块使用的数据均是教材同步课文的语音和对应的文字数据,也即常用的MP3+LRC的形式。对同步于语音文件的文本数据,目前的制作方法中,需要完全人工进行拆分、文字识别、对文本数据进行语音录制、制作时间轴文件、人工校对等等,制作方式步骤多,制作效率比较低、耗时长、制作成本代价高。
发明内容
本发明实施例公开了一种语音文件的LRC时间轴文件自动生成方法及相关设备,大大提高了制作LRC时间轴文件的效率。
本发明实施例第一方面公开一种语音文件的LRC时间轴文件自动生成方法,包括:
当没有处理完所有的语音文件时,获取未经处理的语音文件及相应的录音稿文件;
按照所述语音文件的语句间隔将所述语音文件分成多个语音区间,并记录每个语音区间的开始时间;
依据语音识别技术识别所述语音文件,生成与所述语音文件对应的文本文件,其中,所述文本文件记录与所述语音区间对应的开始时间;
将所述文本文件与所述录音稿文件进行对比,并生成LRC时间轴文件。
作为一种可选的实施方式,在本发明实施例第一方面中,所述方法中将文本文件与所述录音稿文件进行对比,并生成LRC时间轴文件的步骤包括:
判断是否已经读取完所述录音稿文件的文本或者已经读取完文本文件的文本,如果没有读取完,则按预设的单位长度依次读取所述录音稿文件的文本,并将读取的文本与所述文本文件的语音区间对应的文本进行对比,若相似度小于预设的阀值,则读取文本文件的下一个单位长度文本并与录音稿文件进行对比,直到相似度达到预设的阀值;再将所述语音区间对应的文本的开始时间与读取的录音稿文件写入LRC时间轴文件;如果读取完所述录音稿文件的文本或者读取完文本文件的文本,生成整个语音文件对应的LRC时间轴文件。
作为一种可选的实施方式,在本发明实施例第一方面中,所述按照语音文件的语句间隔将所述语音文件分成多个语音区间,并记录每个语音区间的开始时间的步骤之后,所述方法还包括:
依据语种识别技术识别出各语音区间音频发音的语言种类;
再根据识别的语言种类调用对应的语音识别接口进行语音识别,生成与所述语音文件对应的文本文件。
作为一种可选的实施方式,在本发明实施例第一方面中,所述获取未经处理的语音文件及相应的录音稿文件的步骤之后,所述方法还包括:
按预设的降噪值和音频分贝值对所述语音文件进行预处理,从而提升语音识别成文本的精度。
作为一种可选的实施方式,在本发明实施例第一方面中,所述生成LRC时间轴文件的步骤之后,所述方法还包括:
将所述语音文件与所述LRC时间轴文件加密打包生成用户设备使用的数据。
本发明实施例第二方面公开一种语音文件的LRC时间轴文件自动生成装置,包括:
获取模块,用于当没有处理完所有的语音文件时,获取未经处理的语音文件及相应的录音稿文件;
语音区间切分模块,用于按照所述语音文件的语句间隔将所述语音文件分成多个语音区间,并记录每个语音区间的开始时间;
语音识别模块,用于依据语音识别技术识别所述语音文件,生成与所述语音文件对应的文本文件,其中,所述文本文件记录与所述语音区间对应的开始时间;
LRC时间轴文件生成模块,用于将所述文本文件与所述录音稿文件进行对比,并生成LRC时间轴文件。
作为一种可选的实施方式,在本发明实施例第二方面中:
所述LRC时间轴文件生成模块包括:
判断单元,用于判断是否已经读取完所述录音稿文件的文本或者已经读取完文本文件的文本;
读取单元,用于当判断单元判断出没有读取完所述录音稿文件的文本或者文本文件的文本时,按预设的单位长度依次读取所述录音稿文件的文本;
对比单元,用于将读取单元读取的文本与所述文本文件的语音区间对应的文本进行对比;
时间写入单元,用于当对比单元对比出读取单元读取的文本与所述文本文件的语音区间对应的文本的相似度达到预设的阀值时,将所述语音区间对应的文本的开始时间与读取的录音稿文件写入LRC时间轴文件。
作为一种可选的实施方式,在本发明实施例第二方面中,所述装置还包括:
语种识别模块,用于依据语种识别技术识别出各语音区间音频发音的语言种类。
作为一种可选的实施方式,在本发明实施例第二方面中,所述装置还包括:
预处理模块,用于按预设的降噪值和音频分贝值对所述语音文件进行预处理,从而提升语音识别成文本的精度。
作为一种可选的实施方式,在本发明实施例第二方面中,所述装置还包括:
加密打包模块,用于将所述语音文件与所述LRC时间轴文件加密打包生成用户设备使用的数据。
本发明实施例第三方面公开一种用户设备,包括本发明实施例第二方面公开的所述语音文件的LRC时间轴文件自动生成装置。
与现有技术相比,本发明实施例具备以下有益效果:
本发明实施例中,当没有处理完所有的语音文件时,获取未经处理的语音文件及相应的录音稿文件;然后按照语音文件的语句间隔将语音文件分成多个语音区间,并记录每个语音区间的开始时间;再依据语音识别技术识别语音文件,生成与该语音文件对应的文本文件,其中,文本文件记录了与语音区间对应的文本的开始时间;最后将文本文件与录音稿文件进行对比,并生成LRC时间轴文件。可见,实施本发明实施例,能够智能地生成语音文件的LRC时间轴文件,省去了大量的人工工作,提高了效率,降低了成本。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种语音文件的LRC时间轴文件自动生成方法的流程示意图;
图2是本发明实施例公开的另一种语音文件的LRC时间轴文件自动生成方法的流程示意图;
图3是本发明实施例公开的另一种语音文件的LRC时间轴文件自动生成方法的流程示意图;
图4是本发明实施例公开的一种语音文件的LRC时间轴文件自动生成装置的结构示意图;
图5是本发明实施例公开的另一种语音文件的LRC时间轴文件自动生成装置的结构示意图;
图6是本发明实施例公开的一种用户设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例公开了一种语音文件的LRC时间轴文件自动生成方法及相关设备,能够智能地生成语音文件的LRC时间轴文件,省去了大量的人工工作,提高了效率,降低了成本。以下进行结合附图进行详细描述。
实施例一
请参阅图1,图1是本发明实施例公开的一种语音文件的LRC时间轴文件自动生成方法的流程示意图。如图1所示,该语音文件的LRC时间轴文件自动生成方法可以包括以下步骤:
101、当没有处理完所有的语音文件时,获取未经处理的语音文件及相应的录音稿文件。
本发明实施例中,可以一次只处理一个语音文件,即只自动生成一个语音文件的LRC时间轴文件。也可以是批量处理语音文件,即批量地自动生成多个语音文件的LRC时间轴文件。当有语音文件未处理时,则获取未经处理的语音文件及相应的录音稿文件。其中,LRC时间轴文件是音乐同步歌词文件。
102、按照语音文件的语句间隔将语音文件分成多个语音区间,并记录每个语音区间的开始时间。
获取未经处理的语音文件后,按照语音文件的语句间隔将语音文件分成多个语音区间,例如可以按照语音文件中人的说话间隔来切割语音区间,或者可以按照自然句子的长度来切割语音区间,此处不做限制。将语音文件切割成多个语音区间后,还需要记录每个语音区间的开始时间,例如第一个语音区间的开始时间是00:01秒,第二个语音区间的开始时间是00:10秒。
103、依据语音识别技术识别语音文件,生成与该语音文件对应的文本文件,其中,文本文件记录与该语音区间对应的文本的开始时间。
将语音文件切割成多个语音区间后,再利用语音识别技术对语音文件进行语音识别,并生成与该语音文件对应的文本文件,在该文本文件中,记录与语音区间对应的文本的开始时间,例如在文本文件中,第一个语音区间对应的文本为“秋天,满树飘落的落叶就像翩翩起舞的蝴蝶”,第一个语音区间的开始时间是00:01秒,则记录前述文本的开始时间为00:01秒。又如在文本文件中,第二个语音区间对应的文本为“冬天,漫天的雪花就像飞絮一样飞舞”,第二个语音区间的开始时间是00:10秒,则记录前述文本的开始时间为00:10秒。
104、将文本文件与录音稿文件进行对比,并生成LRC时间轴文件。
生成与语音文件对应的文本文件后,再将该文本文件与录音稿文件进行对比,将文本文件中与录音稿文件中相匹配的文本的开始时间记录到录音稿文件中,这样就完成了语音文件及相应的录音稿文件时间的对应,根据记录有时间轴的录音稿文件来生成LRC时间轴文件。
在图1所描述的方法,当没有处理完所有的语音文件时,获取未经处理的语音文件及相应的录音稿文件;然后按照语音文件的语句间隔将语音文件分成多个语音区间,并记录每个语音区间的开始时间;再依据语音识别技术识别语音文件,生成与该语音文件对应的文本文件,其中,文本文件记录了与语音区间对应的文本的开始时间;最后将文本文件与录音稿文件进行对比,并生成LRC时间轴文件。可见,实施本发明实施例,能够智能地生成语音文件的LRC时间轴文件,省去了大量的人工工作,提高了效率,降低了成本。
实施例二
请参阅图2,图2是本发明实施例公开的另一种语音文件的LRC时间轴文件自动生成方法的流程示意图。如图2所示,该语音文件的LRC时间轴文件自动生成方法可以包括以下步骤:
201、当没有处理完所有的语音文件时,获取未经处理的语音文件及相应的录音稿文件。
202、按照语音文件的语句间隔将语音文件分成多个语音区间,并记录每个语音区间的开始时间。
获取未经处理的语音文件后,按照语音文件的语句间隔将语音文件分成多个语音区间,例如可以按照语音文件中人的说话间隔来切割语音区间,或者可以按照自然句子的长度来切割语音区间,此处不做限制。将语音文件切割成多个语音区间后,还需要记录每个语音区间的开始时间,例如第一个语音区间的开始时间是00:01秒,第二个语音区间的开始时间是00:10秒。
203、依据语音识别技术识别语音文件,生成与该语音文件对应的文本文件,其中,文本文件记录与该语音区间对应的文本的开始时间。
将语音文件切割成多个语音区间后,再利用语音识别技术对语音文件进行语音识别,并生成与该语音文件对应的文本文件,在该文本文件中,记录与语音区间对应的文本的开始时间,例如在文本文件中,第一个语音区间对应的文本为“秋天,满树飘落的落叶就像翩翩起舞的蝴蝶”,第一个语音区间的开始时间是第00:01秒,则记录前述文本的开始时间为第00:01秒。又如在文本文件中,第二个语音区间对应的文本为“冬天,漫天的雪花就像飞絮一样飞舞”,第二个语音区间的开始时间是第00:10秒,则记录前述文本的开始时间为第00:10秒。
204、判断是否已经读取完录音稿文件的文本或者已经读取完文本文件的文本。
在步骤203中生成与该语音文件对应的文本文件后,再对语音文件对应的录音稿文件进行处理。具体的,首先需要依次读取录音稿文件的文本。在读取录音稿文件的文本之前,先判断是否已经读取完录音稿文件的文本或者已经读取完文本文件的文本,如果否,则执行步骤205,如果是,则执行步骤209。
205、按预设的单位长度依次读取录音稿文件的文本,并将读取的文本与文本文件的语音区间对应的文本进行对比。
如果步骤204中判断出未读取完录音稿文件的文本或者读取完文本文件的文本,则按照预设的单位长度依次读取录音稿文件的文本,其中,单位长度可以是以句号为长度,也可以是按照行为长度,此处不做限制。读取了录音稿文件的文本后,再将读取的文本与文本文件的语音区间对应的文本进行对比,这里从头开始读取的文本是与语音文件的第一个语音区间开始对应的,有可能读取的一个单位长度的文本对应多个语音区间的文本,但一定是按时间顺序对应的。
206、判断相似度是否达到预设的阀值。
将读取的录音稿文件与语音区间的文本进行对比的时候,判断两者的相似度是否达到预设的阀值,如果是,则执行步骤208,如果否,则执行步骤207。
207、读取文本文件的下一个语音区间的文本并与录音稿文件进行对比。
如果判断出读取的文本与语音区间的文本的相似度没有达到预设的阀值,则读取文本文件的下一个语音区间的文本并与录音稿文件进行对比,例如,读取的录音稿文件第一个单位长度的文本是“秋天,满树飘落的落叶就像翩翩起舞的蝴蝶;冬天,漫天的雪花就像飞絮一样飞舞”,文本文件的第一个语音区间的文本是“秋天,满树飘落的落叶就像翩翩起舞的蝴蝶”,将“秋天,满树飘落的落叶就像翩翩起舞的蝴蝶”与秋天,满树飘落的落叶就像翩翩起舞的蝴蝶;冬天,漫天的雪花就像飞絮一样飞舞”进行对比,相似度没有达到预设的阀值,则再读取文本文件的下一个语音区间的文本:“冬天,漫天的雪花就像飞絮一样飞舞”;再将文本文件的第一个语音区间的文本和第二个语音区间的文本:“秋天,满树飘落的落叶就像翩翩起舞的蝴蝶”以及“冬天,漫天的雪花就像飞絮一样飞舞”与录音稿文件第一个单位长度的文本“秋天,满树飘落的落叶就像翩翩起舞的蝴蝶;冬天,漫天的雪花就像飞絮一样飞舞”进行比较,相似度达到了预设的阀值,再执行步骤208。
208、将语音区间对应的文本的开始时间与读取的录音稿文件写入LRC时间轴文件。
如果步骤206中判断出将读取的录音稿文件与语音区间的文本进行对比,相似度达到预设的阀值,则将语音区间对应的文本的开始时间与读取的录音稿文件写入LRC时间轴文件,例如第一个语音区间对应的文本为“秋天,满树飘落的落叶就像翩翩起舞的蝴蝶”,开始时间为第00:01秒;第二个语音区间对应的文本为“冬天,漫天的雪花就像飞絮一样飞舞”,开始时间为第00:10秒;读取的录音稿文件为“秋天,满树飘落的落叶就像翩翩起舞的蝴蝶;冬天,漫天的雪花就像飞絮一样飞舞”,则将读取的录音稿文件“秋天,满树飘落的落叶就像翩翩起舞的蝴蝶;冬天,漫天的雪花就像飞絮一样飞舞”,以及对应的时间,即“秋”对应第00:01秒,“冬”对应第00:10秒写入LRC时间轴文件。步骤208执行完后,继续执行步骤204,直到步骤204中判断出已经读取完录音稿文件或者读取完文本文件的文本。
209、生成整个语音文件对应的LRC时间轴文件。
当步骤204中判断出已经读取完录音稿文件或者读取完文本文件的文本时,说明已经处理完整个语音文件和对应的录音稿文件,则生成整个语音文件对应的LRC时间轴文件。
实施图2所描述的方法通过按预设的单位长度依次读取录音稿文件的文本,并将读取的文本与文本文件的语音区间对应的文本进行对比,再判断两者的相似度是否达到预设的阀值,如果没有达到预设的阀值,则读取文本文件的下一个单位长度文本并与录音稿文件进行对比,直到相似度达到预设的阀值,再将语音区间对应的文本的开始时间与读取的录音稿文件写入LRC时间轴文件,重复执行上述步骤,直至读取完录音稿文件的文本或者读取完文本文件的文本,生成整个语音文件对应的LRC时间轴文件。可见,实施本发明实施例,生成语音文件的LRC时间轴文件的整个过程都是自动完成,没有人工参与,省去了大量的人工工作,提高了效率,降低了成本。
实施例三
请参阅图3,图3是本发明实施例公开的另一种语音文件的LRC时间轴文件自动生成方法的流程示意图。如图3所示,该语音文件的LRC时间轴文件自动生成方法可以包括以下步骤:
301、批量导入语音文件和录音稿文件。
需要批量自动生成语音文件的LRC时间轴文件时,首先批量导入语音文件和录音稿文件。
302、判断是否已经处理完所有的语音文件。
再判断是否已经处理完所有的语音文件,如果是,则执行步骤314,如果否,则执行步骤303。
303、获取未经处理的语音文件及相应的录音稿文件。
304、按预设的降噪值和音频分贝值对语音文件进行预处理。
按预设好的降噪值、音频分贝值,对音频进行预处理,从而提升语音识别成文本的精度。
305、按照语音文件的语句间隔将语音文件分成多个语音区间,并记录每个语音区间的开始时间。
306、依据语种识别技术识别出各语音区间音频发音的语言种类,再根据识别的语言种类调用对应的语音识别接口进行语音识别。
利用语种识别技术识别各语音区间音频发音的语言种类,再根据识别的语言种类调用对应的语音识别接口进行语音识别,能提高语音识别精度。
307、依据语音识别技术识别语音文件,生成与该语音文件对应的文本文件,其中,文本文件记录与该语音区间对应的文本的开始时间。
308、判断是否已经读取完录音稿文件的文本或者已经读取完文本文件的文本。如果否,则执行步骤309,如果是,则执行步骤313。
309、按预设的单位长度依次读取录音稿文件的文本,并将读取的文本与文本文件的语音区间对应的文本进行对比。
310、判断相似度是否达到预设的阀值。如果是,则执行步骤312,如果否,则执行步骤311。
311、读取文本文件的下一个语音区间的文本并与录音稿文件进行对比。执行完毕后返回步骤310。
312、将语音区间对应的文本的开始时间与读取的录音稿文件写入LRC时间轴文件。执行完毕后返回步骤308。
313、生成整个语音文件对应的LRC时间轴文件。
314、将语音文件与LRC时间轴文件加密打包生成用户设备使用的数据。执行完本步骤后返回步骤302。
315、结束本流程。当步骤302中判断出已经处理完所有的语音文件时,结束本流程。
需要说明的是,步骤314可以在步骤313执行完之后随即执行,也可以在步骤302判断结果为是时先执行步骤314,再执行步骤315。
实施图3所描述的方法中,实现了批量语音文件的处理,相比人工进行批量处理,大大提高了处理效率。并且,通过按预设好的降噪值、音频分贝值,对音频进行预处理,从而提升语音识别成文本的精度。进一步的,通过利用利用语种识别技术识别各语音区间音频发音的语言种类,再根据识别的语言种类调用对应的语音识别接口进行语音识别,提高了语音识别精度。从而提高了生成语音文件的LRC时间轴文件的精确度和效率。
实施例四
请参阅图4,图4是本发明实施例公开的一种语音文件的LRC时间轴文件自动生成装置的结构示意图。如图4所示,该语音文件的LRC时间轴文件自动生成装置可以包括:
获取模块401,用于当没有处理完所有的语音文件时,获取未经处理的语音文件及相应的录音稿文件。
语音区间切分模块402,用于按照获取模块401获取的语音文件的语句间隔将该语音文件分成多个语音区间,并记录每个语音区间的开始时间。其中,可以按照语音文件中人的说话间隔来切割语音区间,或者可以按照自然句子的长度来切割语音区间,此处不做限制。将语音文件切割成多个语音区间后,还需要记录每个语音区间的开始时间,例如第一个语音区间的开始时间是00:01秒,第二个语音区间的开始时间是00:10秒。
语音识别模块403,用于依据语音识别技术识别语音文件,生成与语音文件对应的文本文件,其中,文本文件记录与语音区间对应的开始时间。例如在文本文件中,第一个语音区间对应的文本为“秋天,满树飘落的落叶就像翩翩起舞的蝴蝶”,第一个语音区间的开始时间是00:01秒,则记录前述文本的开始时间为00:01秒。又如在文本文件中,第二个语音区间对应的文本为“冬天,漫天的雪花就像飞絮一样飞舞”,第二个语音区间的开始时间是00:10秒,则记录前述文本的开始时间为00:10秒。
LRC时间轴文件生成模块404,用于将文本文件与录音稿文件进行对比,并生成LRC时间轴文件。
本发明实施例中,当没有处理完所有的语音文件时,获取模块401获取未经处理的语音文件及相应的录音稿文件;然后语音区间切分模块402按照语音文件的语句间隔将语音文件分成多个语音区间,并记录每个语音区间的开始时间;语音识别模块403再依据语音识别技术识别语音文件,生成与该语音文件对应的文本文件,其中,文本文件记录了与语音区间对应的文本的开始时间;最后LRC时间轴文件生成模块404将文本文件与录音稿文件进行对比,并生成LRC时间轴文件。可见,实施本发明实施例,能够智能地生成语音文件的LRC时间轴文件,省去了大量的人工工作,提高了效率,降低了成本。
实施例五
请参阅图5,图5是本发明实施例公开的另一种语音文件的LRC时间轴文件自动生成装置的结构示意图。如图5所示,该语音文件的LRC时间轴文件自动生成装置可以包括:
获取模块501,用于当没有处理完所有的语音文件时,获取未经处理的语音文件及相应的录音稿文件。
预处理模块502,用于按预设的降噪值和音频分贝值对获取模块获取的语音文件进行预处理,从而提升语音识别成文本的精度。
语音区间切分模块503,用于按照获取模块401获取的语音文件的语句间隔将该语音文件分成多个语音区间,并记录每个语音区间的开始时间。
语种识别模块504,用于依据语种识别技术识别出各语音区间音频发音的语言种类。
语音识别模块505,用于依据语音识别技术识别语音文件,生成与语音文件对应的文本文件,其中,文本文件记录与语音区间对应的开始时间。
LRC时间轴文件生成模块506,用于将文本文件与录音稿文件进行对比,并生成LRC时间轴文件。其中,LRC时间轴文件生成模块506包括:
判断单元5061,用于判断是否已经读取完所述录音稿文件的文本或者已经读取完文本文件的文本。
读取单元5062,用于当判断单元5061判断出没有读取完录音稿文件的文本或者文本文件的文本时,按预设的单位长度依次读取录音稿文件的文本。
对比单元5063,用于将读取单元5062读取的文本与文本文件的语音区间对应的文本进行对比。
时间写入单元5064,用于当对比单元5063对比出读取单元读取的文本与文本文件的语音区间对应的文本的相似度达到预设的阀值时,将语音区间对应的文本的开始时间与读取的录音稿文件写入LRC时间轴文件。
加密打包模块507,用于将语音文件与LRC时间轴文件加密打包生成用户设备使用的数据。其中,用户设备可以是学习机端或者家教机端,此处不做限制。
本发明实施例中,通过预处理模块502按预设好的降噪值、音频分贝值,对音频进行预处理,从而提升语音识别成文本的精度。进一步的,语种识别模块504通过利用利用语种识别技术识别各语音区间音频发音的语言种类,再根据识别的语言种类调用对应的语音识别接口进行语音识别,提高了语音识别精度。并且,LRC时间轴文件生成模块506的整个执行过程完全智能化,因此提高了生成语音文件的LRC时间轴文件的精确度和效率。
实施例六
请参阅图6,图6是本发明实施例公开的一种用户设备的结构示意图。其中,图6所示的用户设备包括图4~图5任意一种语音文件的LRC时间轴文件自动生成装置。实施图6所示的用户设备,获取未经处理的语音文件及相应的录音稿文件;然后按照语音文件的语句间隔将语音文件分成多个语音区间,并记录每个语音区间的开始时间;再依据语音识别技术识别语音文件,生成与该语音文件对应的文本文件,其中,文本文件记录了与语音区间对应的文本的开始时间;最后将文本文件与录音稿文件进行对比,并生成LRC时间轴文件。可见,实施本发明实施例,能够智能地生成语音文件的LRC时间轴文件,省去了大量的人工工作,提高了效率,降低了成本。另外,通过按预设好的降噪值、音频分贝值,对音频进行预处理,从而提升语音识别成文本的精度。进一步的,通过利用利用语种识别技术识别各语音区间音频发音的语言种类,再根据识别的语言种类调用对应的语音识别接口进行语音识别,提高了语音识别精度。从而提高了生成语音文件的LRC时间轴文件的精确度和效率。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
以上对本发明实施例公开的一种语音文件的LRC时间轴文件自动生成方法及相关设备进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (11)
1.一种语音文件的LRC时间轴文件自动生成方法,其特征在于,包括:
当没有处理完所有的语音文件时,获取未经处理的语音文件及相应的录音稿文件;
按照所述语音文件的语句间隔将所述语音文件分成多个语音区间,并记录每个语音区间的开始时间;
依据语音识别技术识别所述语音文件,生成与所述语音文件对应的文本文件,其中,所述文本文件记录与所述语音区间对应的开始时间;
将所述文本文件与所述录音稿文件进行对比,并生成LRC时间轴文件。
2.根据权利要求1所述的方法,其特征在于,所述将文本文件与所述录音稿文件进行对比,并生成LRC时间轴文件,包括:
判断是否已经读取完所述录音稿文件的文本或者已经读取完文本文件的文本,如果没有读取完,则按预设的单位长度依次读取所述录音稿文件的文本,并将读取的文本与所述文本文件的语音区间对应的文本进行对比,若相似度小于预设的阀值,则读取文本文件的下一个单位长度文本并与录音稿文件进行对比,直到相似度达到预设的阀值;再将所述语音区间对应的文本的开始时间与读取的录音稿文件写入LRC时间轴文件;如果读取完所述录音稿文件的文本或者读取完文本文件的文本,生成整个语音文件对应的LRC时间轴文件。
3.根据权利要求2所述的方法,其特征在于,所述按照所述语音文件的语句间隔将所述语音文件分成多个语音区间,并记录每个语音区间的开始时间之后,还包括:
依据语种识别技术识别出各语音区间音频发音的语言种类;
再根据识别的语言种类调用对应的语音识别接口进行语音识别,生成与所述语音文件对应的文本文件。
4.根据权利要求3所述的方法,其特征在于,所述获取未经处理的语音文件及相应的录音稿文件之后,还包括:
按预设的降噪值和音频分贝值对所述语音文件进行预处理,从而提升语音识别成文本的精度。
5.根据权利要求4所述的方法,其特征在于,所述生成LRC时间轴文件之后,还包括:
将所述语音文件与所述LRC时间轴文件加密打包生成用户设备使用的数据。
6.一种语音文件的LRC时间轴文件自动生成装置,其特征在于,包括:
获取模块,用于当没有处理完所有的语音文件时,获取未经处理的语音文件及相应的录音稿文件;
语音区间切分模块,用于按照所述语音文件的语句间隔将所述语音文件分成多个语音区间,并记录每个语音区间的开始时间;
语音识别模块,用于依据语音识别技术识别所述语音文件,生成与所述语音文件对应的文本文件,其中,所述文本文件记录与所述语音区间对应的开始时间;
LRC时间轴文件生成模块,用于将所述文本文件与所述录音稿文件进行对比,并生成LRC时间轴文件。
7.根据权利要求6所述的装置,其特征在于,所述LRC时间轴文件生成模块包括:
判断单元,用于判断是否已经读取完所述录音稿文件的文本或者已经读取完文本文件的文本;
读取单元,用于当判断单元判断出没有读取完所述录音稿文件的文本或者文本文件的文本时,按预设的单位长度依次读取所述录音稿文件的文本;
对比单元,用于将读取单元读取的文本与所述文本文件的语音区间对应的文本进行对比;
时间写入单元,用于当对比单元对比出读取单元读取的文本与所述文本文件的语音区间对应的文本的相似度达到预设的阀值时,将所述语音区间对应的文本的开始时间与读取的录音稿文件写入LRC时间轴文件。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
语种识别模块,用于依据语种识别技术识别出各语音区间音频发音的语言种类。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
预处理模块,用于按预设的降噪值和音频分贝值对所述语音文件进行预处理,从而提升语音识别成文本的精度。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
加密打包模块,用于将所述语音文件与所述LRC时间轴文件加密打包生成用户设备使用的数据。
11.一种用户设备,其特征在于,包括权利要求6~权利要求10任意一项所述的语音文件的LRC时间轴文件自动生成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710042000.1A CN106897379B (zh) | 2017-01-20 | 2017-01-20 | 语音文件的lrc时间轴文件自动生成方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710042000.1A CN106897379B (zh) | 2017-01-20 | 2017-01-20 | 语音文件的lrc时间轴文件自动生成方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106897379A true CN106897379A (zh) | 2017-06-27 |
CN106897379B CN106897379B (zh) | 2019-12-03 |
Family
ID=59198671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710042000.1A Expired - Fee Related CN106897379B (zh) | 2017-01-20 | 2017-01-20 | 语音文件的lrc时间轴文件自动生成方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106897379B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108109633A (zh) * | 2017-12-20 | 2018-06-01 | 北京声智科技有限公司 | 无人值守的云端语音库采集与智能产品测试的系统与方法 |
CN108172212A (zh) * | 2017-12-25 | 2018-06-15 | 横琴国际知识产权交易中心有限公司 | 一种基于置信度的语音语种识别方法及系统 |
CN108419124A (zh) * | 2018-05-08 | 2018-08-17 | 北京酷我科技有限公司 | 一种音频处理方法 |
CN111863043A (zh) * | 2020-07-29 | 2020-10-30 | 安徽听见科技有限公司 | 音频转写文件生成方法、相关设备及可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102801925A (zh) * | 2012-08-08 | 2012-11-28 | 无锡天脉聚源传媒科技有限公司 | 一种字幕加配的方法及装置 |
CN104900233A (zh) * | 2015-05-12 | 2015-09-09 | 深圳市东方泰明科技有限公司 | 一种声音与文本全自动匹配对齐的方法 |
CN105376651A (zh) * | 2014-08-29 | 2016-03-02 | 北京金山安全软件有限公司 | 一种生成视频幻灯片的方法及装置 |
CN105632484A (zh) * | 2016-02-19 | 2016-06-01 | 上海语知义信息技术有限公司 | 语音合成数据库停顿信息自动标注方法及系统 |
CN105653729A (zh) * | 2016-01-28 | 2016-06-08 | 努比亚技术有限公司 | 一种录音文件索引的装置及方法 |
-
2017
- 2017-01-20 CN CN201710042000.1A patent/CN106897379B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102801925A (zh) * | 2012-08-08 | 2012-11-28 | 无锡天脉聚源传媒科技有限公司 | 一种字幕加配的方法及装置 |
CN105376651A (zh) * | 2014-08-29 | 2016-03-02 | 北京金山安全软件有限公司 | 一种生成视频幻灯片的方法及装置 |
CN104900233A (zh) * | 2015-05-12 | 2015-09-09 | 深圳市东方泰明科技有限公司 | 一种声音与文本全自动匹配对齐的方法 |
CN105653729A (zh) * | 2016-01-28 | 2016-06-08 | 努比亚技术有限公司 | 一种录音文件索引的装置及方法 |
CN105632484A (zh) * | 2016-02-19 | 2016-06-01 | 上海语知义信息技术有限公司 | 语音合成数据库停顿信息自动标注方法及系统 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108109633A (zh) * | 2017-12-20 | 2018-06-01 | 北京声智科技有限公司 | 无人值守的云端语音库采集与智能产品测试的系统与方法 |
CN108172212A (zh) * | 2017-12-25 | 2018-06-15 | 横琴国际知识产权交易中心有限公司 | 一种基于置信度的语音语种识别方法及系统 |
CN108172212B (zh) * | 2017-12-25 | 2020-09-11 | 横琴国际知识产权交易中心有限公司 | 一种基于置信度的语音语种识别方法及系统 |
CN108419124A (zh) * | 2018-05-08 | 2018-08-17 | 北京酷我科技有限公司 | 一种音频处理方法 |
CN108419124B (zh) * | 2018-05-08 | 2020-11-17 | 北京酷我科技有限公司 | 一种音频处理方法 |
CN111863043A (zh) * | 2020-07-29 | 2020-10-30 | 安徽听见科技有限公司 | 音频转写文件生成方法、相关设备及可读存储介质 |
CN111863043B (zh) * | 2020-07-29 | 2022-09-23 | 安徽听见科技有限公司 | 音频转写文件生成方法、相关设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106897379B (zh) | 2019-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106897379A (zh) | 语音文件的lrc时间轴文件自动生成方法及相关设备 | |
Katsamanis et al. | SailAlign: Robust long speech-text alignment | |
CN103559214B (zh) | 视频自动生成方法及装置 | |
CN108597541B (zh) | 一种增强愤怒与开心识别的语音情感识别方法及系统 | |
CN105304080B (zh) | 语音合成装置及方法 | |
CN108305632A (zh) | 一种会议的语音摘要形成方法及系统 | |
CN101261832B (zh) | 汉语语音情感信息的提取及建模方法 | |
CN108986826A (zh) | 自动生成会议记录的方法、电子装置及可读存储介质 | |
CN107527620A (zh) | 电子装置、身份验证的方法及计算机可读存储介质 | |
CN107452372A (zh) | 远场语音识别模型的训练方法和装置 | |
CN109448460A (zh) | 一种背诵检测方法及用户设备 | |
CN109766419A (zh) | 基于语音分析的产品推荐方法、装置、设备及存储介质 | |
CN102411932A (zh) | 结合声门激励和声道调制信息的汉语语音情感提取及建模方法 | |
CN104252872B (zh) | 歌词生成方法和智能终端 | |
CN1243339C (zh) | 为拼接的文语转换声音确定未对准语音单元的方法和系统 | |
Sóskuthy et al. | Voice quality and coda/r/in Glasgow English in the early 20th century | |
CN111090726A (zh) | 一种基于nlp的电力行业文字客服交互方法 | |
Cao et al. | Combining ranking and classification to improve emotion recognition in spontaneous speech | |
Kalinli | Tone and pitch accent classification using auditory attention cues | |
Renwick et al. | Voices of coastal Georgia | |
CN109074809A (zh) | 信息处理设备、信息处理方法和程序 | |
CN109192211A (zh) | 一种语音信号识别的方法、装置及设备 | |
CN112466287B (zh) | 一种语音分割方法、装置以及计算机可读存储介质 | |
Hanifa et al. | Comparative Analysis on Different Cepstral Features for Speaker Identification Recognition | |
CN111243351B (zh) | 一种基于分词技术的外语口语训练系统、客户端和服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20191203 Termination date: 20220120 |