具体实施方式
以下将结合附图及实施例来详细说明本发明的特征与实施方式,内容足以使本领域技术人员能够轻易地充分理解本发明解决技术问题所应用的技术手段并据以实施,由此实现本发明可达成的技术效果。
本发明可以检测音频信号中的人声信号,并依据人声信号中的各个语音段落的起始时间调整与各个语音段落对应的词句的显示时间,使得所有词句都能够在相对应的语音段落被播放时被显示,而没有提前或延后显示的现象。
本发明所述的音频信号,至少包含人声信号,在被播放后会产生人声,例如,歌曲文档、相声录音文档等,但本发明并不以此为限,甚至,音频信号也可以包含在多媒体影音文档中。其中,人声信号可能包含一个或多个语音段落,每一个语音段落是以是否有人声来分隔的,也就是说,语音段落与语音段落之间没有人声。
以下先以图1本发明所述的人声信号与其文字说明资料的同步系统架构图来说明本发明的系统运作。如图1所示,本发明的系统含有载入模块110、人声抽取模块120、段落分析模块130、词句对应模块150、以及时间调整模块160。
载入模块110负责载入音频信号,一般而言,载入模块110是将音频信号载入执行本发明的装置的存储器(图中未示出)中,但本发明并不以此为限。载入模块110可以由执行本发明的装置的存储介质(图中未示出)载入音频信号,也可以由执行本发明的装置外部的装置载入音频信号,本发明没有特别的限制。
载入模块110所载入的音频信号具有对应的文字说明资料,例如,当音频信号为歌曲文档时,文字说明资料为对应的歌词文档,当音频信号为相声录音文档时,文字说明资料为对应的字幕文档,当音频信号包含在多媒体影音文档中时,文字说明资料为包含该音频信号的多媒体影音文档的字幕文档等,但本发明的文字说明资料并不以上述为限。
与音频信号对应的文字说明资料可能被储存在本发明的装置的存储介质中,也可能被储存在执行本发明的装置外部的装置中,本发明没有特别的限制。值得一提的是,音频信号与对应的文字说明资料并不一定会储存在相同的装置中。
一般而言,载入模块110在载入音频信号时,也会将相对应的文字说明资料载入执行本发明的装置的存储器中,但本发明并不以此为限。
人声抽取模块120负责由载入模块110所载入的音频信号中抽取人声信号。其中,人声抽取模块120所抽取的人声信号被播放的时间会与载入模块110所载入的音频信号被播放的时间相同。
人声抽取模块120可以衰减音频信号中的特定频率,例如,衰减音频信号中范围在300Hz至3000Hz之外的频率,这样,非人声的频率将被衰减,也就是说,音频信号在经过衰减后,留下的部分主要为人声信号。人声抽取模块120也可以将音频信号的左声道反向后,叠加到右声道,并将音频信号的右声道反向后,叠加到左声道,这样,可以得到消除人声的中间信号,接着在将消除人声的中间信号反向后与原始的音频信号叠加,或反向原始的音频信号后与中间信号叠加,叠加后产生的信号即为人声信号。但本发明的人声抽取模块120由音频信号中抽取人声信号的方式并不以上述为限。
段落分析模块130负责分析人声抽取模块120所抽取出的人声信号,由此取得人声信号中的各语音段落的起始时间。一般而言,段落分析模块130会检测人声信号中的人声,并在检测人声时判断该人声未持续(中断或停止)的时间点,而后继续检测新的人声,当段落分析模块130检测到该人声未持续时,会将人声中断或停止前所检测到的持续人声视为一个语音段落,而后再检测到新的人声时,将所检测到的新人声视为一个新的语音段落,其中,段落分析模块130检测到该持续人声开始的时间点即为本发明中所述的起始时间。但本发明的段落分析模块130取得人声信号中的各语音段落的方式并不以上述为限。
词句对应模块150负责建立与音频信号对应的文字说明资料中的各词句与段落分析模块130所取得的各语音段落的对应关系,也就是将文字说明资料中的各词句对应至各语音段落。一般而言,词句对应模块150会依据文字说明资料中各词句的排列顺序以及段落分析模块130取得各语音段落的先后顺序,依序将各词句对应至各语音段落,但本发明的词句对应模块150对应词句与语音段落的方式并不以上述为限。
当文字说明资料中除了包含各词句之外,还包含与各词句对应的显示时间时,例如,文字说明资料为动态歌词(LRC)文档时,词句对应模块150也可以先依据与各词句对应的显示时间重新排列各词句,而后再依据重新排列后的各词句的排列顺序,将各词句依序对应至各语音段落。其中,值得特别一提的是,文字说明资料中的部分词句可能会与两个或两个以上的显示时间相对应,词句对应模块150会将对应两个或两个以上的显示时间的词句分割为与相对应的显示时间的数量相同的多个词句,且各个词句分别对应不同的显示时间,而后,再依据各个词句对应的显示时间排列各个词句。
时间调整模块160负责依据词句对应模块150所建立的词句与语音段落的对应关系,以及段落分析模块130所记录的各语音段落的起始时间,将文字说明资料中的各词句的显示时间调整为相对应的语音段落的起始时间。其中,时间调整模块160可以调整被载入模块110载入存储器中的文字说明资料所记录的显示时间,也可以在文字说明资料储存于执行本发明的装置的存储介质中时,直接调整储存于存储介质中的文字说明资料所记录的显示时间。
另外,本发明还可以包含可附加的播放模块190,播放模块190负责同步显示显示时间与音频信号中的语音段落被播放的时间相同的词句,也就是在音频信号被播放的时间与时间调整模块160调整后的某一词句的显示时间相同时,显示调整后的显示时间与音频信号被播放的时间相同的词句。在部分的实施例中,播放模块190还可以播放载入模块110所载入的音频信号。
接着以第一实施例来解说本发明的运作系统与方法,并请参照图2本发明所述的人声信号与其文字说明资料的同步方法流程图。在本实施例中,假设音频信号为歌曲文档,对应的文字说明资料为歌词文档。
当用户下载歌曲文档(音频信号)至电脑的硬盘后,使用电脑播放器播放所下载的歌曲文档时,若歌曲文档的版本不同,则显示歌词(词句)的时间较歌曲文档中每一句歌词(语音段落)出现的时间可能略有不同,也就是歌词文档(文字说明资料)中所记录的歌词的显示时间与歌曲文档中的歌词的起始时间不同,造成显示歌词(词句)的时间较歌曲文档中的歌词出现的时间稍早或稍晚,这样,用户可以使用本发明调整歌词文档中所记录的各歌词的显示时间。
首先,载入模块110可以载入音频信号(步骤210),在本实施例中,也就是将歌曲文档由电脑的硬盘中载入电脑的存储器。同时,假设载入模块110也将与歌曲文档对应的歌词文档载入电脑的存储器中。
在载入模块110载入音频信号(步骤210)后,人声抽取模块120可以由载入模块110所载入的音频信号中抽取出人声信号(步骤220),接着,段落分析模块130可以分析人声抽取模块120所抽取出的人声信号,由此取得人声信号中的各个语音段落的起始时间(步骤230)。在本实施例中,假设人声信号中包含12个语音段落。
在段落分析模块130取得人声信号中的各个语音段落的起始时间后,词句对应模块150可以将文字说明资料中的各词句依序对应到人声信号的各语音段落(步骤250)。在本实施例中,由于歌词文档(文字说明资料)中包含歌词(词句)的显示时间,因此,词句对应模块150会依据歌词文档中所记录的12句歌词的显示时间,重新排序各歌词,并在排序歌词后,将排序后的12句歌词依序对应到人声信号中的12个语音段落,使每一句歌词依序对应到不同的语音段落。
在本实施例中,若歌词文档仅包含11句歌词,但其中有一句歌词对应两个显示时间,则词句对应模块150会将对应两个显示时间的歌词复制为相同的两句歌词,并将两个显示时间分别对应到复制后相同的两句歌词。这样,歌词文档会变为12句歌词,每一句歌词对应不同的显示时间。而后,词句对应模块150便可以依据各歌词所对应的显示时间重新排序各歌词,并在排序后将排序后的12句歌词依序对应到人声信号中的12个语音段落。
在词句对应模块150将文字说明资料中的各词句依序对应到人声信号的各语音段落(步骤250)后,时间调整模块160可以依据段落分析模块130所取得的各语音段落的起始时间,将文字说明资料中的各词句的显示时间调整为与各词句对应的语音段落的起始时间(步骤260)。在本实施例中,时间调整模块160会将用户所使用的电脑的存储器中记录的各词句的显示时间调整为与各词句对应的各语音段落的起始时间,也会将用户所使用的电脑的存储介质所记录的歌词文档中各词句的显示时间调整为与各词句对应的各语音段落的起始时间。这样,通过本发明,歌词文档中的各词句的显示时间会自动调整为正确的时间,用户不需要自行调整。
接着再以第二实施例来解说本发明的运作系统与方法,请继续参照图2的方法流程图。在本实施例中,假设音频信号同样为歌曲文档,文字说明资料同样为歌词文档。
首先,载入模块110可以将歌曲文档(音频信号)由电脑的硬盘中载入电脑的存储器中(步骤210)。在本实施例中,假设载入模块110也通过网络到歌词服务器下载被载入模块110载入的歌曲文档对应的歌词文档,其中,载入模块110所下载的歌词文档并没有包含歌词的显示时间。
在载入模块110载入音频信号(步骤210)后,人声抽取模块120可以由载入模块110所载入的音频信号中抽取出人声信号(步骤220),段落分析模块130可以分析人声抽取模块120所抽取出的人声信号,由此取得人声信号中的各个语音段落的起始时间(步骤230),词句对应模块150可以将文字说明资料中的各词句依序对应到人声信号的各语音段落(步骤250)。
在本实施例中,由于歌词文档(文字说明资料)中没有包含歌词(词句)的显示时间,因此,词句对应模块150会依据歌词文档中所记录的歌词的先后顺序,将歌词依序对应到人声信号中的各个语音段落,使每一句歌词依序对应到不同的语音段落。
在词句对应模块150将文字说明资料中的各词句依序对应到人声信号的各语音段落(步骤250)后,时间调整模块160可以将文字说明资料中的各词句的显示时间调整为与各词句对应的语音段落的起始时间(步骤260)。在本实施例中,由于载入模块110所载入的歌词文档没有包含显示时间,因此,用户所使用的电脑的存储器中记录的各歌词也没有对应的显示时间,时间调整模块160会将各歌词所对应的语音段落的起始时间加入用户所使用的电脑的存储器中,由此将存储器中所记录的各词句的显示时间由无调整为与各词句对应的各语音段落的起始时间。
在上述两实施例中,若包含播放模块190,则播放模块190可以播放歌曲文档(音频信号)(步骤280),并在歌曲文档被播放时,判断歌曲文档被播放的时间是否与存储器中所记录的各歌词(词句)的显示时间(经过时间调整模块160调整后的显示时间)相同,当歌曲文档被播放的时间与存储器中所记录的某一句歌词的显示时间相同时,播放模块190可以显示相对应的显示时间与歌曲文档被播放的时间相同的歌词,由此同步显示对应的显示时间与音频信号中的语音段落被播放的时间相同的词句(步骤290)。这样,通过本发明,歌词文档中的各词句的显示时间会自动调整为正确的时间,用户不需要自行调整。
综上所述,可知本发明与现有技术之间的差异在于具有分析音频信号中的人声信号后取得人声信号中的语音段落的起始时间,并在将与音频信号对应的文字说明资料中的各词句依序对应至各语音段落后,调整各词句的显示时间为对应的语音段落的起始时间的技术手段,通过这一技术手段可以解决现有技术所存在调整词句的显示时间过于没有效率的问题,进而达成自动将词句的显示时间调整为出现对应人声的时间的技术效果。
再者,本发明的人声信号与其文字说明资料的同步方法,可实现于硬件、软件或硬件与软件的组合中,亦可在电脑系统中以集中方式实现或以不同元件散布于若干互连的电脑系统的分散方式实现。
虽然本发明所揭露的实施方式如上,然而所述的内容并非用以直接限定本发明的专利保护范围。任何本领域技术人员在不脱离本发明所揭露的精神和范围的前提下,对本发明的实施的形式上及细节上作一些更动润饰,均属于本发明的专利保护范围。本发明的专利保护范围,仍须以所附的权利要求书所限定的内容为准。