CN1937032A

CN1937032A - 切割语音数据序列的方法

Info

Publication number: CN1937032A
Application number: CNA2005101051355A
Authority: CN
Inventors: 简世杰
Original assignee: Industrial Technology Research Institute ITRI
Current assignee: Industrial Technology Research Institute ITRI
Priority date: 2005-09-22
Filing date: 2005-09-22
Publication date: 2007-03-28
Anticipated expiration: 2025-09-22
Also published as: CN1937032B

Abstract

本发明公开了一种切割语音数据序列的方法，通过共同路径侦测方式，在部分文句状态序列与部分语音数据序列的多个匹配路径中，寻找一共同路径，记录该共同路径里与文句边界标记相对应的语音边界后，再取出其后的部分文句数据与语音数据序列，作为下一次比对的数据，依此方式逐步求得与文句边界标记相对应的语音边界，最后依照记录的语音边界切割语音数据序列。

Description

切割语音数据序列的方法

技术领域

本发明涉及一种语音切割的方法，特别是涉及一种应用在文句状态序列与语音数据序列以维特比算法(Viterbi algorithm)进行匹配的切割方法。

背景技术

在语音处理领域里，语音切割是一项重要的前处理(Pre-processing)工作，主要工作是将与文句数据相对应的语音数据序列切割出来，进一步作各种应用；例如，依据切割的语音及文句的对应内容，来训练语音识别的声学模型，或者将取出的对应到文句的语音信号作为语音合成所需的合成单元。

但是，当遇到较长的语音数据序列及文句数据时，例如长达20-30分钟的录音带、CD音轨、压缩的数字音乐、或是含音信数据的video多媒体等，无论是模拟或数字的音信数据，在统一转换成数字音信后，再依照传统的语音切割方法进行切割，过多需处理的数据可能造成系统难以负荷而使传统的语音切割方法难以实现，其问题症结就在于内存容量限制和运算时间上；既无法将所有的数据一次性加载到内存进行语音切割，也无法在很短的时间内完成处理。

因此，传统上，会将这种较长的语音数据序列及文句资料用人工方式来进行分段处理，从而使传统的语音切割方法得以进行，相应的也就必须耗费相当多的人力和时间来处理，这对目前与日俱增的多媒体数据处理，无疑是一个大负担。

而目前在语音切割的处理上，对于这种较长的语音数据序列，最常使用的方法是通过语音识别逐一在语音数据序列里侦测出一些锚点(Anchor)，相当于是对语音数据序列与文句数据作一个预切割动作，将语音数据序列与文句数据内容切成较小的段落，之后再对各个段落依相同方式，递归的进行语音辨识、锚点侦测及切割，直到切割出来段落的数据量可以使用传统语音切割方法来处理为止，再以传统语音切割方法对各个段落进行细部切割。

可以了解的是：语音识别的识别率对这种切割方法将有直接的影响，若识别效果不佳，则锚点侦测必然出问题，也直接影响到后续处理的结果；再者，识别出来的词句必须具有高度的可信度才能成为锚点，然而可信度侦测又是容易出问题的地方，尤其当文句中不断重复相同的词句时，例如，“的”、“你”、“我”、“他”等等常用的单词不断重复出现，识别出这样的单词来，并具有高度的可信度，但有可能对应到错误的文句位置使得锚点侦测出错；而且，若锚点与锚点之间的数据量过大，也就必须在锚点与锚点之间再进行语音辨识、锚点侦测及切割，因此这个过程有可能必须重复多次，才能缩小各个锚点之间的数据量，从而使后续的细部切割得以进行。

由此可知，使用传统的方式来做语音切割，一者受数据量、计算机硬件的限制，当数据量过多时，必须使用人力先进行预先切割，耗时费力。再者，用过去对较长语音数据序列的语音切割方法来进行切割，除了耗时之外，还容易因语音识别错误而导致切割错误的情况发生。

发明内容

本发明所要解决的技术问题在于提供一种切割语音数据序列的方法，用循序方式一次处理一部分的文句语音数据序列，以逐步完成整个语音数据序列与文句状态序列的匹配，切割出对应于文句边界的语音数据序列。

为了实现上述目的，本发明提供了一种切割语音数据序列的方法，至少必须包含下列步骤：

首先，由使用者设定进行可靠段落侦测的条件，也就是设定可靠段落侦测中所使用的回溯路径数目；然后，加载一固定数据量的部分文句及语音数据序列，其中该固定数据量为设定的一条件值，加载的文句则以对应于声学模型单元的状态序列来表示，也就是以文句状态序列表示；接着，用先前训练好的声学模型，进行该部分文句状态序列与该部分语音数据序列的比对，以最大概似估测(Maximum Likelihood estimation)估测出该部分文句状态序列对应于该部分语音数据序列的最大概似分数。

接着，在该部分语音数据序列的终点位置，取前几名与设定回溯路径数目相同的具有最高的最大概似分数值的文句状态位置，并由这些文句状态位置个别产生其回溯路径；若此多组回溯路径具有一部分共同路径，则将其列为可靠段落并记录该可靠段落与文句边界相对应的语音边界；在去除可靠段落所对应的语音数据序列和文句状态序列之后，再继续读取部分文句语音数据，进行上述的部分文句状态序列与部分语音数据序列比对及可靠段落与语音边界的求取，直至全部的语音数据序列与文句数据全部处理完成。

之后，以最终的语音数据序列位置和最终的文句状态序列位置的交会点进行回溯，回溯到最后一次取得可靠段落终点处，取得最终部分的回溯路径，并记录该回溯路径里与文句边界相对应的语音边界；最后，检验文句边界与语音边界的个数是否相同，若不相同，则重新进行可靠段落侦测的条件设定，重复进行上述步骤，直至文句边界与语音边界的个数相同为止。

若在取出的部分文句语音数据中，无法由多组回溯路径找到一部分共同路径，则判断前几名与设定回溯路径数目相同的具有最高的最大概似分数值的文句状态位置中，是否包含一文句状态位置为该部分文句状态序列的最终状态。若有，则同时继续读取部分文句语音数据序列，否则，则只继续读取部分语音数据序列，再根据增加后该部分文句语音数据进行比对，来求得共同路径。

通过本发明的方法，由于每次只取部分文句数据与部分语音数据序列来进行处理，不仅所需的硬件资源较少，而且不需先以人力进行预先切割；通过逐步增加数据来求得共同路径，并记录下该共同路径里与文句边界相对应的语音边界后，就不再处理共同路径里包含的文句语音数据，如此一来便可仅使用部分文句数据与部分语音数据序列来求得语音边界，达到节省大量运算时间的目的；除此之外，还可通过回溯路径数目设定值的调整，在一可允许的边界误差范围中获得最佳的语音切割结果。

以下结合附图和具体实施例对本发明进行详细描述，但不作为对本发明的限定。

附图说明

图1为本发明利用维特比算法求得文句与语音数据对应的最佳路径示意图；

图2a-2d为本发明的方法流程图；

图3为本发明在部分搜寻空间求得可靠段落的示意图；

图4为本发明在求得一段可靠段落后，记录语音边界和进行下一次匹配数据安排的示意图；以及

图5为本发明不存在一共同路径额外增加文句和语音资料的示意图。

其中，附图标记：

10 搜寻空间

110 语音数据序列

120 文句状态序列

130 最佳路径

140、141、142、143 部分搜寻空间

150、151、152 前3个具有较高概似分数值的文句状态

153、155、156 可靠段落边界

154 原点

157 语音数据序列终点和文句状态序列终点

的交会点

160、161、162 前3个具有较高概似分数值的回溯路径

310 回溯路径数目示意

320 共同路径

330 语音边界

710 最终文句状态

步骤210 设定可靠段落侦测的条件

步骤220 加载一固定数据量的部分文句语音数据序列

步骤230 以声学模型比对该部分文句语音数据

步骤240 判断是否有可靠段落

步骤250 记录语音边界

步骤400 移除取得可靠段落的部分文句语音数据

步骤410 判断是否还有待处理的文句语音数据

步骤420 移除可靠段落后的部分文句数据量是否小于

该固定文句数据量

步骤430 判断是否还有待处理的文句数据

步骤440 继续读取部分文句数据

步骤450 判断是否还有待处理的语音数据

步骤460 继续读取部分语音数据序列

步骤470 以目前文句的最终状态所回溯的路径作为

共同路径

步骤480 记录语音边界

步骤610 判断是否还有待处理的文句语音数据

步骤620 判断是否包含最终文句状态

步骤630 判断是否还有待处理的文句数据

步骤640 继续读取部分文句数据

步骤650 判断是否还有待处理的语音数据序列

步骤660 继续读取部分语音数据序列

步骤670 以目前文句的最终状态所回溯的路径作为

共同路径

步骤680 记录语音边界

步骤810 判断语音边界数量是否与文句边界数量

相同

步骤820 依照记录的语音边界切割语音数据序列并

输出切割结果

步骤830 调整可靠段落侦测的条件设定

具体实施方式

本发明公开一种切割语音数据序列的方法。在以下对本发明的详细说明中，将描述多种特定的细节以便提供对本发明的完整说明。但是，对熟知相关技术者来说，可以不需要使用该特定细节就可以实施本发明，或者可以利用替代的组件或方法来实施本发明。在一般状况下，并不特别详细地说明已知的方法、程序、部件、以及电路，以避免对本发明重点的不必要的混淆。

请参考图1，此为本发明对于搜寻空间10的最佳路径示意图。其中搜寻空间10的纵轴S_K为文句状态序列120，搜寻空间10的横轴T为语音数据序列110，而搜寻空间10中的粗黑实线为整体匹配的最佳路径130，该最佳路径是通过维特比算法求得，其理论基础在于该最佳路径130是通过最大概似估测来确定，因此即使将整个搜寻空间10缩至仅为灰色区块的部分搜寻空间140时，存在部分搜寻空间140的部分最佳路径160在语音数据序列t位置的文句状态S_t位置(即A点150)的概似分数值，与同样位于语音数据序列t位置的其它文句状态位置的概似分数值相比较，虽然不一定是其中具有最高概似分数值的状态，但其概似分数值也必定不低。所以，只要选取多个位于语音数据序列t位置具有较高概似分数值的文句状态(A点150、B点151及C点152)，并求出这些文句状态的回溯路径160、161及162，是非常有可能将部分搜寻空间140的部分最佳路径包含进来，并且一旦这些回溯路径有共同路径(由D点153至部分搜寻空间140的原点154的路径)，该共同路径必定为部分搜寻空间140部分最佳路径160的一部分，也必定为整体匹配的最佳路径130的一部分，称该共同路径为部分搜寻空间140里的可靠段落。

因此，本发明可以通过在部分搜寻空间140、141及142中逐一寻求其可靠段落(D点153至原点154、E点155至D点153及F点156至E点155)，并在部分搜寻空间143以最终的语音数据序列位置T和最终的文句状态序列位置SK的交会点(G点157)求得其回溯路径(G点157至F点156)，所有部分搜寻空间所求得的可靠段落与部分搜寻空间143所求得的回溯路径即构成整个搜寻空间10中的最佳路径130。

请参考图2a和图3，为本发明的方法流程图和在部分搜寻空间求得可靠段落的示意图，在开始进行语音切割工作之前，使用者需设定可靠段落侦测的条件(步骤210)，即回溯路径数目310(本实施例的回溯路径数目为3)，回溯路径数目310设定越多则表示越有可能将正确路径涵盖进来，也越有可能使这些回溯路径所求得的共同路径320(也就是可靠段落)落在整个搜寻空间的最佳路径中。之后，加载一固定数据量的部分文句语音数据序列(步骤220)，如图3所示，加载文句数据为“世界上，最有钱的”7个字，并以其对应于声学模型单元的状态序列来表示，也就是以文句状态序列表示，语音数据序列为t个语音音框(frame)，接着，利用先前预先训练好的声学模型进行文句状态及语音数据序列的比对(步骤230)，以最大概似估测估测出该部分文句状态序列对应于该部分语音数据序列的最大概似分数。接着，判断部分搜寻空间里是否存在有可靠段落(步骤240)，如图3所示，在部分语音数据序列的终点位置t按照设定回溯路径数目310取概似分数最高的前3个文句状态位置(即A、B及C三个位置)，并由这些文句状态位置产生出3条回溯路径，接着，检验这3条回溯路径是否存在有一共同路径320，经由检验发现这3条路径存在有一共同路径320，也就是这个部分搜寻空间的可靠段落。之后，在可靠段落320所对应的文句里检验是否含有文句边界，发现有一文句边界“，”，并且该文句边界依可靠段落320可对应到语音数据序列位置x，故记录下此语音边界330(步骤250)，也就是x位置。

当记录好语音边界330之后，请参考图2b和图4，接着，移除以前取得可靠段落的部分文句语音数据序列(步骤400)，也就是如图4所示，去除白色网格线区块，仅保留文句数据“有钱的”及语音数据序列τ至t所形成的灰色区块。之后，判断是否还有待处理的文句或语音数据(步骤410)，若有，判断移除可靠段落后的部分文句数据量是否小于原设定的固定文句数据量(步骤420)，当移除可靠段落后的部分文句数据量小于原设定的固定文句数据量时，则判断是否还有待处理的文句数据(步骤430)，若有，则在上次所加载的部分文句数据后，再继续读取部分文句数据(步骤440)，如图4所示，移除可靠段落后的部分文句数据剩“有钱的”3个字，小于原设定的固定文句数据量7个字，此时，再读取部分文句数据“人是比尔”，使其继续成为预设固定的文句数据量“有钱的人是比尔”7个字。之后，判断是否还有待处理的语音数据(步骤450)，若尚有语音数据，则继续读取部分语音数据序列(步骤460)，使其达到预设固定的语音数据量，如图4所示，移除可靠段落后的部分语音数据量为(t-τ)，在尚有语音数据的情形下，再读取部分语音数据量为(t’-t)，使其继续成为预设固定的语音数据序列量t。之后，如步骤230所示再进行处理。而在步骤410若判断已无待处理的文句和语音数据以及步骤450判断已无待处理的语音数据时，则依上述图1的方式以最终的语音数据序列位置和目前文句最终的状态位置，回溯求得其回溯路径为共同路径(步骤470)，并记录该共同路径里文句边界所对应的语音边界(步骤480)。而在步骤420若判断移除可靠段落后的部分文句数据量大于或等于原设定的固定文句数据量及步骤430判断已无待处理的文句数据时，则至步骤450进行处理。

若如5图所示，在此部分搜寻空间中，部分语音数据序列的终点位置t，3个具有较高概似分数的文句状态位置(A、B及C三个位置)所求的3条回溯路径并不存在有一共同路径，即3条回溯路径交会于此部分搜寻空间的原点，请参考图2c，首先，判断是否还有待处理的文句语音数据(步骤610)，若有，再接着判断这3个具有较高概似分数的文句状态位置是否包含目前文句状态序列的最终文句状态710(步骤620)，若有，则判断是否还有待处理的文句数据(步骤630)，若有，则于上次所加载的部分文句数据后再继续读取部分文句数据(步骤640)，如图5所示，原本所加载的部分文句数据为“世界上，最有钱的”7个字，这里再额外增加“人是比尔”4个字。之后，判断是否还有待处理的语音数据(步骤650)，若尚有语音数据，则继续读取部分语音数据序列(步骤660)，如图5所示，原本所加载的部分语音数据量为t，这里再额外增加(t’-t)的语音数据。之后，再如步骤230所示进行处理，以增加文句和语音数据方式，增加取得共同路径的机会。而在步骤610若判断已无待处理的文句和语音数据以及步骤650判断已无待处理的语音数据时，则依上述图1方式以最终的语音数据序列位置和目前文句最终的状态位置回溯求得其回溯路径为共同路径(步骤670)，并记录该共同路径里文句边界所对应的语音边界(步骤680)。但若在步骤620中，这3个具有较高概似分数的文句状态位置之中无一状态为目前文句状态序列的最终文句状态710以及步骤630判断已无待处理的文句数据时，则至步骤650进行处理。

当所有的文句与语音数据都处理完之后，如图2d所示，判断语音边界的数量是否与文句边界数量相同(步骤810)，若相同，则依照记录的语音边界切割语音数据序列，并输出切割结果(步骤820)；若不同，表示设定的回溯路径数目310太少，以致于无法将正确路径涵盖进来，因此，应调整可靠段落侦测的条件设定(步骤830)，即增加回溯路径数目310。之后，重回步骤220进行处理。

对于文句边界数量的取得，由于文句数据在进行语音切割前，使用者会先设定其边界标记(tag)，如标点符号。因此，可于事前处理时计算出其文句边界数量，此处不再赘述。

通过本发明所公开的方法，在配备为AMD CPU 1G Hz及操作系统为Windows2000的计算机平台上，将751句工研院自动总机所录制的中文人名语音信号串接成约23分15秒左右的语音数据序列，并记录这些句子串接的位置作为正确答案。文句数据为该751句中文人名(总文句状态为20224个)，并在句子与句子的中间标注文句边界标记，共含750个文句边界标记。

使用回溯路径数目310为40时，我们可在14分钟左右(14分16秒)得到所有的语音边界位置，并得到与文句边界标记数量相对应的语音边界数量。将这些语音边界点与上述正确答案的语音边界点比较，在容许边界误差0.1秒的条件下，仅有1个语音边界超出0.1秒的容许范围；而在容许边界误差1秒的条件下，两者的语音边界完全无差异，由此可见本发明方法具有极高的准确度及处理效率。

当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1、一种切割语音数据序列方法，应用于一待处理的语音数据序列，及其对应的一含数个文句边界标记的文句数据上，其特征在于，该方法包含下列步骤：

在该文句数据中，取出一部分的文句数据；

在该待处理语音数据中，取出一部分的语音数据序列；

取得该部分文句数据与该部分语音数据序列的数个匹配路径，并由各该匹配路径中取得一段共同路径；

当该段共同路径中具有至少一文句边界标记时，记录该段共同路径中各该文句边界标记相对应的各该语音边界；

依上述步骤在该段共同路径后的剩余待处理文句数据与语音数据序列中，继续取得下一段共同路径，直至无待处理的该文句数据与语音数据序列为止；

在剩余未能找到共同路径的文句数据与语音数据序列中，以最终的一文句数据位置及一语音数据序列位置，取得一匹配路径；

当该段匹配路径中具有至少一文句边界标记时，记录该匹配路径中各该文句边界标记相对应的各该语音边界；及

依上述步骤所记录的各该语音边界切割该语音数据序列。

2、根据权利要求1所述切割语音数据序列的方法，其特征在于，其中若无法由该数个匹配路径中取得一段共同路径，则再增加一部分的文句数据与语音数据序列进行匹配，直到能找到有一段共同路径。

3、根据权利要求1所述切割语音数据序列的方法，其特征在于，其中该匹配路径的数量由一使用者在方法执行前预先设定。

4、根据权利要求1所述切割语音数据序列的方法，其特征在于，其中当语音边界数量与该文句边界标记数量不相等时，则重新设定该匹配路径的数量，然后再次执行本方法来切割该语音数据序列。

5、根据权利要求1所述切割语音数据序列的方法，其特征在于，其中各该匹配路径是根据维特比算法依据所取出的部分文句数据和部分语音数据序列与一预先训练的声学模型计算其分数值之后，再由部分语音数据序列的最终语音位置及由部分文句数据中选定一文句位置推算而得。

6、根据权利要求1所述切割语音数据序列的方法，其特征在于，其中数个匹配路径是根据部分语音数据序列的最终语音位置所对应的文句位置的分数值取与设定的匹配路径数量相同的数个具有较高分数值的文句位置之后，依照权利要求5所述的匹配路径的确定而得。

7、根据权利要求1所述切割语音数据序列的方法，其特征在于，其中该再增加部分的文句数据与语音数据序列量为一单位数据。

8、根据权利要求1所述切割语音数据序列的方法，其特征在于，其中该数个匹配路径若无法取得一段共同路径，且无一匹配路径是由该部分文句数据的最终文句位置所推算而得时，则只需再增加部分的语音数据序列即可再次进行数个匹配路径和共同路径的求取。

9、一种可切割语音数据序列的计算机，应用于比对切割一待处理的语音数据序列，及其对应的含数个文句边界标记的一文句数据上，具有一中央处理器、一内存、及一操作系统，其特征在于，还包含：

一计算机可执行的程序，用以在该文句数据中，取出一部分的文句数据；

在该待处理语音数据中，取出一部分的语音数据序列；

依上述步骤所记录的各该语音边界切割该语音数据序列。

10、根据权利要求9所述可切割语音数据序列的计算机，其特征在于，其中若无法由该复数个匹配路径中取得一段共同路径，则再增加一部分的文句数据与语音数据序列进行匹配，直到能找到有一段共同路径。

11、根据权利要求9所述可切割语音数据序列的计算机，其特征在于，其中该匹配路径的数量由一使用者在方法执行前预先设定。

12、根据权利要求9所述可切割语音数据序列的计算机，其特征在于，其中当语音边界数量与该文句边界标记数量不相等时，则重新设定该匹配路径的数量后，再次执行本方法来切割该语音数据序列。

13、根据权利要求9所述可切割语音数据序列的计算机，其特征在于，其中各该匹配路径是根据维特比算法依据所取出的部分文句数据和部分语音数据序列与一预先训练的声学模型计算其分数值之后，由部分语音数据序列的最终语音位置及由部分文句数据中选定一文句位置推算而得。

14、根据权利要求9所述可切割语音数据序列的计算机，其特征在于，其中复数个匹配路径是根据部分语音数据序列的最终语音位置所对应的文句位置的分数值取与设定的匹配路径数量相同的数个具有较高分数值的文句位置之后，依照如权利要求13所述的匹配路径的确定而得。

15、根据权利要求9所述可切割语音数据序列的计算机，其特征在于，其中该再增加部分的文句数据与语音数据序列量为一单位数据。

16、根据权利要求9所述可切割语音数据序列的计算机，其特征在于，其中该数个匹配路径若无法取得一段共同路径，且无一匹配路径是由该部分文句数据的最终文句位置所推算而得时，则只需再增加部分的语音数据序列即可再次进行数个匹配路径和共同路径的求取。