CN103680561A

CN103680561A - 人声信号与其文字说明资料的同步的系统及其方法

Info

Publication number: CN103680561A
Application number: CN201210319704.6A
Authority: CN
Inventors: 丁科
Original assignee: Inventec Pudong Technology Corp; Inventec Corp
Current assignee: Inventec Pudong Technology Corp; Inventec Corp
Priority date: 2012-08-31
Filing date: 2012-08-31
Publication date: 2014-03-26
Anticipated expiration: 2032-08-31
Also published as: CN103680561B

Abstract

一种人声信号与其文字说明资料的同步的系统及其方法，其通过分析音频信号中的人声信号后取得人声信号中的语音段落的起始时间，并在将与音频信号对应的文字说明资料中的各词句依序对应至各语音段落后，调整各词句的显示时间为对应的语音段落的起始时间的技术手段，可以提高调整词句的显示时间的效率，并达成自动将词句的显示时间调整为出现对应人声的时间的技术效果。

Description

人声信号与其文字说明资料的同步的系统及其方法

技术领域

本发明涉及一种词句显示时间同步系统及其方法，尤其涉及一种人声信号与其文字说明资料的同步的系统及其方法。

背景技术

动态歌词的技术方案可以让歌曲文档被播放时，读取歌曲文档所对应的歌词，并同步显示被播放的人声所表示的歌词。事实上，动态歌词并不只限于使用在歌曲文档，凡是所包含的人声有表示含义的多媒体文档都可以使用动态歌词同步显示人声所表示的词句。

随着越来越多的多媒体播放软件或多媒体播放器支持动态歌词，多媒体文档的拥有者逐渐希望多媒体播放软件或多媒体播放器在播放多媒体文档中的音频信号时，可以同步显示被播放的人声所表示的词句。

在提供执行动态歌词的文字说明资料中，必须包含与文字说明资料中所记录的各词句对应的显示时间，这样，多媒体播放软件或多媒体播放器才能在音频信号被播放的时间与各词句对应的显示时间相同时，同步播放各词句。

虽然目前大部分的音频信号都有对应的文字说明资料以使用动态歌词的技术方案，且目前在文字说明资料中的各词句对应的显示时间与音频信号中各人声出现的时间有落差时，也有修改文字说明资料所记录的显示时间的工具软件。但是，这些工具软件仅提供用户手动逐一修改各词句的显示时间，或是对所有词句的显示时间进行整体性的增加或减少。

由于目前仍有部分的音频信号所对应的文字说明资料仅记录音频信号的词句，而没有记录显示时间，另外，部分的音频信号则可能有多种的版本，每一种版本的出现人声的时间可能有一点差异，例如某些人声可能较词句被显示的时间早/晚被播放，若要手动自行新增或修改各词句的显示时间，这将花费大量的时间，非常没有效率。

综上所述，可知现有技术中长期以来一直存在无法有效率的调整与音频信号对应的各词句显示时间的问题，因此有必要提出改进的技术手段，来解决这一问题。

发明内容

有鉴于现有技术存在调整词句的显示时间过于没有效率的问题，本发明遂揭露一种人声信号与其文字说明资料的同步系统及其方法，其中：

本发明所揭露的人声信号与其文字说明资料的同步系统，至少包含：载入模块，用以载入音频信号，音频信号对应文字说明资料；人声抽取模块，用以由音频信号中抽取出人声信号，人声信号包含语音段落；段落分析模块，用以分析人声信号以取得语音段落的起始时间；词句对应模块，用以对应语音段落与文字说明资料中的各词句；时间调整模块，用以将词句的显示时间调整为相对应的语音段落的起始时间。

本发明所揭露的人声信号与其文字说明资料的同步方法，其步骤至少包括：载入音频信号，音频信号对应文字说明资料；由音频信号中抽取出人声信号，人声信号包含语音段落；分析人声信号以取得语音段落的起始时间；将文字说明资料中的各词句依序对应至语音段落；调整词句的显示时间为相对应的语音段落的起始时间。

本发明所揭露的系统与方法如上，与现有技术之间的差异在于本发明通过分析音频信号中的人声信号后取得人声信号中的语音段落的起始时间，并在将与音频信号对应的文字说明资料中的各词句依序对应至各语音段落后，调整各词句的显示时间为对应的语音段落的起始时间，由此解决现有技术所存在的问题，并可以达成自动将词句的显示时间调整为出现对应人声的时间的技术效果。

附图说明

图1为本发明所述的人声信号与其文字说明资料的同步系统架构图。

图2为本发明所述的人声信号与其文字说明资料的同步方法流程图。

主要部件附图标记：

110 载入模块

120 人声抽取模块

130 段落分析模块

150 词句对应模块

160 时间调整模块

190 播放模块

步骤210载入音频信号，音频信号对应文字说明资料，文字说明资料包含多个词句

步骤220由音频信号中抽取出人声信号，人声信号包含多个语音段落

步骤230分析人声信号以取得语音段落的起始时间

步骤250将文字说明资料中的各词句依序对应至各语音段落

步骤260调整词句的显示时间为相对应的语音段落的起始时间

步骤280播放音频信号

步骤290同步显示显示时间与音频信号的语音段落被播放时间相同的词句

具体实施方式

以下将结合附图及实施例来详细说明本发明的特征与实施方式，内容足以使本领域技术人员能够轻易地充分理解本发明解决技术问题所应用的技术手段并据以实施，由此实现本发明可达成的技术效果。

本发明可以检测音频信号中的人声信号，并依据人声信号中的各个语音段落的起始时间调整与各个语音段落对应的词句的显示时间，使得所有词句都能够在相对应的语音段落被播放时被显示，而没有提前或延后显示的现象。

本发明所述的音频信号，至少包含人声信号，在被播放后会产生人声，例如，歌曲文档、相声录音文档等，但本发明并不以此为限，甚至，音频信号也可以包含在多媒体影音文档中。其中，人声信号可能包含一个或多个语音段落，每一个语音段落是以是否有人声来分隔的，也就是说，语音段落与语音段落之间没有人声。

以下先以图1本发明所述的人声信号与其文字说明资料的同步系统架构图来说明本发明的系统运作。如图1所示，本发明的系统含有载入模块110、人声抽取模块120、段落分析模块130、词句对应模块150、以及时间调整模块160。

载入模块110负责载入音频信号，一般而言，载入模块110是将音频信号载入执行本发明的装置的存储器（图中未示出）中，但本发明并不以此为限。载入模块110可以由执行本发明的装置的存储介质（图中未示出）载入音频信号，也可以由执行本发明的装置外部的装置载入音频信号，本发明没有特别的限制。

载入模块110所载入的音频信号具有对应的文字说明资料，例如，当音频信号为歌曲文档时，文字说明资料为对应的歌词文档，当音频信号为相声录音文档时，文字说明资料为对应的字幕文档，当音频信号包含在多媒体影音文档中时，文字说明资料为包含该音频信号的多媒体影音文档的字幕文档等，但本发明的文字说明资料并不以上述为限。

与音频信号对应的文字说明资料可能被储存在本发明的装置的存储介质中，也可能被储存在执行本发明的装置外部的装置中，本发明没有特别的限制。值得一提的是，音频信号与对应的文字说明资料并不一定会储存在相同的装置中。

一般而言，载入模块110在载入音频信号时，也会将相对应的文字说明资料载入执行本发明的装置的存储器中，但本发明并不以此为限。

人声抽取模块120负责由载入模块110所载入的音频信号中抽取人声信号。其中，人声抽取模块120所抽取的人声信号被播放的时间会与载入模块110所载入的音频信号被播放的时间相同。

人声抽取模块120可以衰减音频信号中的特定频率，例如，衰减音频信号中范围在300Hz至3000Hz之外的频率，这样，非人声的频率将被衰减，也就是说，音频信号在经过衰减后，留下的部分主要为人声信号。人声抽取模块120也可以将音频信号的左声道反向后，叠加到右声道，并将音频信号的右声道反向后，叠加到左声道，这样，可以得到消除人声的中间信号，接着在将消除人声的中间信号反向后与原始的音频信号叠加，或反向原始的音频信号后与中间信号叠加，叠加后产生的信号即为人声信号。但本发明的人声抽取模块120由音频信号中抽取人声信号的方式并不以上述为限。

段落分析模块130负责分析人声抽取模块120所抽取出的人声信号，由此取得人声信号中的各语音段落的起始时间。一般而言，段落分析模块130会检测人声信号中的人声，并在检测人声时判断该人声未持续（中断或停止）的时间点，而后继续检测新的人声，当段落分析模块130检测到该人声未持续时，会将人声中断或停止前所检测到的持续人声视为一个语音段落，而后再检测到新的人声时，将所检测到的新人声视为一个新的语音段落，其中，段落分析模块130检测到该持续人声开始的时间点即为本发明中所述的起始时间。但本发明的段落分析模块130取得人声信号中的各语音段落的方式并不以上述为限。

词句对应模块150负责建立与音频信号对应的文字说明资料中的各词句与段落分析模块130所取得的各语音段落的对应关系，也就是将文字说明资料中的各词句对应至各语音段落。一般而言，词句对应模块150会依据文字说明资料中各词句的排列顺序以及段落分析模块130取得各语音段落的先后顺序，依序将各词句对应至各语音段落，但本发明的词句对应模块150对应词句与语音段落的方式并不以上述为限。

当文字说明资料中除了包含各词句之外，还包含与各词句对应的显示时间时，例如，文字说明资料为动态歌词（LRC）文档时，词句对应模块150也可以先依据与各词句对应的显示时间重新排列各词句，而后再依据重新排列后的各词句的排列顺序，将各词句依序对应至各语音段落。其中，值得特别一提的是，文字说明资料中的部分词句可能会与两个或两个以上的显示时间相对应，词句对应模块150会将对应两个或两个以上的显示时间的词句分割为与相对应的显示时间的数量相同的多个词句，且各个词句分别对应不同的显示时间，而后，再依据各个词句对应的显示时间排列各个词句。

时间调整模块160负责依据词句对应模块150所建立的词句与语音段落的对应关系，以及段落分析模块130所记录的各语音段落的起始时间，将文字说明资料中的各词句的显示时间调整为相对应的语音段落的起始时间。其中，时间调整模块160可以调整被载入模块110载入存储器中的文字说明资料所记录的显示时间，也可以在文字说明资料储存于执行本发明的装置的存储介质中时，直接调整储存于存储介质中的文字说明资料所记录的显示时间。

另外，本发明还可以包含可附加的播放模块190，播放模块190负责同步显示显示时间与音频信号中的语音段落被播放的时间相同的词句，也就是在音频信号被播放的时间与时间调整模块160调整后的某一词句的显示时间相同时，显示调整后的显示时间与音频信号被播放的时间相同的词句。在部分的实施例中，播放模块190还可以播放载入模块110所载入的音频信号。

接着以第一实施例来解说本发明的运作系统与方法，并请参照图2本发明所述的人声信号与其文字说明资料的同步方法流程图。在本实施例中，假设音频信号为歌曲文档，对应的文字说明资料为歌词文档。

当用户下载歌曲文档（音频信号）至电脑的硬盘后，使用电脑播放器播放所下载的歌曲文档时，若歌曲文档的版本不同，则显示歌词（词句）的时间较歌曲文档中每一句歌词（语音段落）出现的时间可能略有不同，也就是歌词文档（文字说明资料）中所记录的歌词的显示时间与歌曲文档中的歌词的起始时间不同，造成显示歌词（词句）的时间较歌曲文档中的歌词出现的时间稍早或稍晚，这样，用户可以使用本发明调整歌词文档中所记录的各歌词的显示时间。

首先，载入模块110可以载入音频信号（步骤210），在本实施例中，也就是将歌曲文档由电脑的硬盘中载入电脑的存储器。同时，假设载入模块110也将与歌曲文档对应的歌词文档载入电脑的存储器中。

在载入模块110载入音频信号（步骤210）后，人声抽取模块120可以由载入模块110所载入的音频信号中抽取出人声信号（步骤220），接着，段落分析模块130可以分析人声抽取模块120所抽取出的人声信号，由此取得人声信号中的各个语音段落的起始时间（步骤230）。在本实施例中，假设人声信号中包含12个语音段落。

在段落分析模块130取得人声信号中的各个语音段落的起始时间后，词句对应模块150可以将文字说明资料中的各词句依序对应到人声信号的各语音段落（步骤250）。在本实施例中，由于歌词文档（文字说明资料）中包含歌词（词句）的显示时间，因此，词句对应模块150会依据歌词文档中所记录的12句歌词的显示时间，重新排序各歌词，并在排序歌词后，将排序后的12句歌词依序对应到人声信号中的12个语音段落，使每一句歌词依序对应到不同的语音段落。

在本实施例中，若歌词文档仅包含11句歌词，但其中有一句歌词对应两个显示时间，则词句对应模块150会将对应两个显示时间的歌词复制为相同的两句歌词，并将两个显示时间分别对应到复制后相同的两句歌词。这样，歌词文档会变为12句歌词，每一句歌词对应不同的显示时间。而后，词句对应模块150便可以依据各歌词所对应的显示时间重新排序各歌词，并在排序后将排序后的12句歌词依序对应到人声信号中的12个语音段落。

在词句对应模块150将文字说明资料中的各词句依序对应到人声信号的各语音段落（步骤250）后，时间调整模块160可以依据段落分析模块130所取得的各语音段落的起始时间，将文字说明资料中的各词句的显示时间调整为与各词句对应的语音段落的起始时间（步骤260）。在本实施例中，时间调整模块160会将用户所使用的电脑的存储器中记录的各词句的显示时间调整为与各词句对应的各语音段落的起始时间，也会将用户所使用的电脑的存储介质所记录的歌词文档中各词句的显示时间调整为与各词句对应的各语音段落的起始时间。这样，通过本发明，歌词文档中的各词句的显示时间会自动调整为正确的时间，用户不需要自行调整。

接着再以第二实施例来解说本发明的运作系统与方法，请继续参照图2的方法流程图。在本实施例中，假设音频信号同样为歌曲文档，文字说明资料同样为歌词文档。

首先，载入模块110可以将歌曲文档（音频信号）由电脑的硬盘中载入电脑的存储器中（步骤210）。在本实施例中，假设载入模块110也通过网络到歌词服务器下载被载入模块110载入的歌曲文档对应的歌词文档，其中，载入模块110所下载的歌词文档并没有包含歌词的显示时间。

在载入模块110载入音频信号（步骤210）后，人声抽取模块120可以由载入模块110所载入的音频信号中抽取出人声信号（步骤220），段落分析模块130可以分析人声抽取模块120所抽取出的人声信号，由此取得人声信号中的各个语音段落的起始时间（步骤230），词句对应模块150可以将文字说明资料中的各词句依序对应到人声信号的各语音段落（步骤250）。

在本实施例中，由于歌词文档（文字说明资料）中没有包含歌词（词句）的显示时间，因此，词句对应模块150会依据歌词文档中所记录的歌词的先后顺序，将歌词依序对应到人声信号中的各个语音段落，使每一句歌词依序对应到不同的语音段落。

在词句对应模块150将文字说明资料中的各词句依序对应到人声信号的各语音段落（步骤250）后，时间调整模块160可以将文字说明资料中的各词句的显示时间调整为与各词句对应的语音段落的起始时间（步骤260）。在本实施例中，由于载入模块110所载入的歌词文档没有包含显示时间，因此，用户所使用的电脑的存储器中记录的各歌词也没有对应的显示时间，时间调整模块160会将各歌词所对应的语音段落的起始时间加入用户所使用的电脑的存储器中，由此将存储器中所记录的各词句的显示时间由无调整为与各词句对应的各语音段落的起始时间。

在上述两实施例中，若包含播放模块190，则播放模块190可以播放歌曲文档（音频信号）（步骤280），并在歌曲文档被播放时，判断歌曲文档被播放的时间是否与存储器中所记录的各歌词（词句）的显示时间（经过时间调整模块160调整后的显示时间）相同，当歌曲文档被播放的时间与存储器中所记录的某一句歌词的显示时间相同时，播放模块190可以显示相对应的显示时间与歌曲文档被播放的时间相同的歌词，由此同步显示对应的显示时间与音频信号中的语音段落被播放的时间相同的词句（步骤290）。这样，通过本发明，歌词文档中的各词句的显示时间会自动调整为正确的时间，用户不需要自行调整。

综上所述，可知本发明与现有技术之间的差异在于具有分析音频信号中的人声信号后取得人声信号中的语音段落的起始时间，并在将与音频信号对应的文字说明资料中的各词句依序对应至各语音段落后，调整各词句的显示时间为对应的语音段落的起始时间的技术手段，通过这一技术手段可以解决现有技术所存在调整词句的显示时间过于没有效率的问题，进而达成自动将词句的显示时间调整为出现对应人声的时间的技术效果。

再者，本发明的人声信号与其文字说明资料的同步方法，可实现于硬件、软件或硬件与软件的组合中，亦可在电脑系统中以集中方式实现或以不同元件散布于若干互连的电脑系统的分散方式实现。

虽然本发明所揭露的实施方式如上，然而所述的内容并非用以直接限定本发明的专利保护范围。任何本领域技术人员在不脱离本发明所揭露的精神和范围的前提下，对本发明的实施的形式上及细节上作一些更动润饰，均属于本发明的专利保护范围。本发明的专利保护范围，仍须以所附的权利要求书所限定的内容为准。

Claims

1.一种人声信号与其文字说明资料的同步方法，其特征在于，该方法至少包含下列步骤：

载入音频信号，该音频信号对应文字说明资料，该文字说明资料包含多个词句；

由该音频信号中抽取出人声信号，该人声信号包含多个语音段落；

分析该人声信号以取得各该语音段落的起始时间；

将该文字说明资料中的各词句依序对应至各该语音段落；及

调整各该词句的显示时间为相对应的语音段落的起始时间。

2.如权利要求1所述的人声信号与其文字说明资料的同步方法，其特征在于，该同步方法在调整各该词句的显示时间为相对应的语音段落的起始时间的步骤后，还包含播放该音频信号，并同步显示显示时间与该音频信号的各该语音段落被播放时间相同的各该词句的步骤。

3.如权利要求1所述的人声信号与其文字说明资料的同步方法，其特征在于，由该音频信号中抽取出该人声信号的步骤为衰减该音频信号中的特定频率，或先反向叠加该音频信号的左右声道产生中间信号后，再反向叠加该音频信号与该中间信号。

4.如权利要求1所述的人声信号与其文字说明资料的同步方法，其特征在于，将该文字说明资料中的各词句依序对应至各该语音段落的步骤还包含依据各该词句对应的显示时间排列各该词句后，依据排列顺序将各该词句对应至各该语音段落的步骤。

5.如权利要求4所述的人声信号与其文字说明资料的同步方法，其特征在于，该同步方法在依据各该词句对应的显示时间排列各该词句的步骤前，还包含分割对应多个显示时间的一个词句为与这些显示时间的数量相同且分别对应各该显示时间的多个词句的步骤。

6.一种人声信号与其文字说明资料的同步系统，其特征在于，该同步系统至少包含：

载入模块，用以载入音频信号，该音频信号对应文字说明资料，该文字说明资料包含多个词句；

人声抽取模块，用以由该音频信号中抽取出人声信号，该人声信号包含多个语音段落；

段落分析模块，用以分析该人声信号以取得各该语音段落的起始时间；

词句对应模块，用以对应各该语音段落与该文字说明资料中的各词句；及

时间调整模块，用以将各该词句的显示时间调整为相对应的语音段落的起始时间。

7.如权利要求6所述的人声信号与其文字说明资料的同步系统，其特征在于，该同步系统还包含播放模块，用以播放该音频信号，并同步显示显示时间与该音频信号的各该语音段落被播放时间相同的各该词句。

8.如权利要求6所述的人声信号与其文字说明资料的同步系统，其特征在于，该人声抽取模块衰减该音频信号中的特定频率，或反向叠加该音频信号的左右声道产生中间信号后，反向叠加该音频信号与该中间信号，由此由该音频信号中抽取出该人声信号。

9.如权利要求6所述的人声信号与其文字说明资料的同步系统，其特征在于，该词句对应模块还用以依据各该词句对应的显示时间排列各该词句，再依据排列顺序将各该词句对应至各该语音段落。

10.如权利要求9所述的人声信号与其文字说明资料的同步系统，其特征在于，该词句对应模块还用以分割对应多个显示时间的词句为与这些显示时间的数量相同且分别对应各该显示时间的多个词句，由此依据各该词句对应的显示时间排列各该词句。