CN100389421C

CN100389421C - 一种快速构造用于关键词检出任务的语音数据库的方法

Info

Publication number: CN100389421C
Application number: CNB2006100767752A
Authority: CN
Inventors: 黄石磊; 谢湘; 匡镜明
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2006-04-20
Filing date: 2006-04-20
Publication date: 2008-05-21
Anticipated expiration: 2026-04-20
Also published as: CN1831829A

Abstract

本发明涉及一种快速构造用于关键词检出任务的语音数据库的方法。其中执行以下步骤：步骤1，录制孤立词语音数据库；步骤2，根据关键词检出系统的要求确定关键词表和非关键词表；步骤3，确定关键词检出测试数据的参数如总的句子数，时间长度，关键词出现次数等；步骤4，使用波形拼接的方法将符合关键词检出系统要求的关键词和非关键词语音连接成句子，进而生成满足要求的用于关键词检出任务的数据库。本发明实现了利用已有的孤立词语音数据库快速构造用于关键词检出任务的语音数据库的方法，能灵活的根据不同的要求提供相应的语音数据库。

Description

一种快速构造用于关键词检出任务的语音数据库的方法

技术领域

本发明涉及语音数据库的构造方法，尤其是一种用于关键词检出任务的语音数据库的构造方法。

背景技术

语音识别研究的根本目的是实现人用自然语言与机器进行交互，使机器具有类似人一样的听觉功能，能直接接受人的语音，理解人的意图并作出相应的反应。语音是人类最自然，最方便，最常用的信息交流方式。关键词检出是从连续的、无限制的自然语音流中识别出一组给定的词——称为关键词。关键词识别是语音识别的一个分支和重要研究方向。关键词检出技术已经在很多应用系统中体现出巨大的价值，它使语音识别技术从实验室研究阶段进入实际应用阶段，其应用领域已经渗透到军事，国防，电信，多媒体，交通等各个场合。

关键词检出系统的评价中语音数据库的获得是最重要的部分，只有有了一定规模的、符合一定的要求的语音数据库，才能对关键词检出系统的性能作出较为全面有效的评价，并具有可重复性。

现有的用于关键词检出系统的语音数据库的建立中，存在以下不足：

(1)语音数据库录制和整理困难

目前用于关键词检出系统的语音数据库均是在特定的要求下实际录制采集而来，每次录制都需要涉及很多说话人、操作人员，语音数据库的工作量非常巨大；加上还需要对数据库进行诸如标注等后期处理处理，工作量是录制过程本身的数倍之多；同时存在口音、口语、噪声等因素的不确定、不可控，录制工作难度大、效率低。

(2)语音数据库灵活性差

每一次采集语音数据库之后，数据库的一些特性，诸如句子长度、关键词出现的次数的分布都是较为固定的；即使可以通过挑选数据库中的子集来实现一定的变化，但是这样的变化都是十分有限的，并且数据库的规模也变小了，因为语音数据一旦采集完成，每个词(无论是否定义为关键词或者非关键词)在数据库中的都是固定了。

(3)数据库的规模较小，对于检验系统的性能尚不能全面

由于实际采集语音数据库的工作量巨大，因此用于关键词检出系统的语音数据库的规模都较小；同时由于关键词检出系统测试的特殊性，在连续语音流中真正的“关键词”出现的概率一般都较小，很多关键词的出现并不能出现较多的次数，从而影响对系统性能的有效测试。

(4)关键词出现的特性不可控

对于测试关键词系统的语音数据库，一般希望其特性诸如关键词出现频率、关键词出现在句子中的位置、每句话中关键词出现的次数的分布满足一定的要求；这些在目前实际录制关键词语音数据库中极难做到完全符合事先设定的，且一旦某一特定设定满足了，就不可能更改。

发明内容

本发明的目的在于针对现有技术所存在的缺陷，提供一种用于关键词检出系统的语音数据库的构造方法，使得在关键词检出系统评测的时候能灵活的提供不同规模和特性语音数据库，从而对关键词检出系统的性能作出全面系统的评价。

为了实现上述目的，本发明提供了一种构造用语关键词检出任务的语音数据库的构造方法，该方法执行以下步骤：

步骤1、录制孤立词语的语音数据库。

步骤2、根据关键词检出系统的要求，明确关键词和非关键词，关键词和非关键词均出现在孤立词语的语音数据库中。

步骤3、根据关键词检出系统的的要求，确定测试数据库的参数，诸如句子总数、平均的句子长度、关键词出现次数、数据库总的持续时间。

步骤4、按照任务的要求，使用波形拼接的方法将符合关键词检出任务的关键词和非关键词语音连接成句子，进而生成满足要求的关键词检出任务用数据库。

在上述技术方案中，步骤1的具体要求为：

为了后继步骤的执行，对孤立词语音数据库作如下的处理：

A、数据库中语音文件，每个语音文件只包含一个孤立词；根据具体的要求，这个孤立词，是作为在关键词检出任务中的一个整体，从语言学的角度来看可能不是“词”而是更长的语言学单位，例如“张三和李四到了北京”；

B、数据库中的语音文件，去除每个语音文件中孤立词语音前后的静默段，但应保证孤立词本身的发音完整；

C、数据库中的语音文件，每个语音文件有对应的正确的标注；这些标注应至少包含孤立词发音的音标(如果是汉语，应为汉语拼音或其他发音的标记)和语义(如果是汉语，应为此孤立词对应的汉字)，以及这些标注符号对应的语音波形的起始时刻；注意一个语音文件的孤立词发音对应的音标序列的整体为一个发音标注，一个语音文件的孤立词语义对应的语义序列的整体为一个语义标注；

D、根据数据库中每个语音文件的标注信息，建立孤立词语音数据库的词表，为发音词表和语义词表，或者其中之一；发音词表中均是孤立词的发音标注，其中每个条目均在语音数据库中出现，并且语音数据库中任意的发音标注都在发音词表中出现且仅出现一次；语义词表中的每个条目均在语音数据库中出现，并且语音数据库中任意的语义标注都在发音词表中出现且仅出现一次；

利用上述的语音数据库构造的用于关键词检出任务的语音数据库的基本单位是句子(定义为包含多于一个词的词序列)。

在上述技术方案中，步骤2具体为：

在步骤2中，关键词总数和非关键词总数之和不超过步骤1种所有的孤立词语音数据库的词表中词语的数量。

步骤21、根据关键词检出系统的任务要求，确定关键词的数量和词表，这些词表中的词均在步骤1种的孤立词语语音数据库中出现；

步骤22、在孤立词语语音数据库中出现而没有被确定为关键词的词语中，挑选确定非关键词；

在上述技术方案中，步骤3具体为：

步骤31、根据关键词检出系统的任务要求，确定每个关键词出现的次数，句子的平均长度，句子的总数或者数据库语音总的持续时间。

步骤32、若步骤31中确定了句子的总数，则用随机方法产生一系列句子，这些句子的总数符合步骤31的要求，且满足如下的要求：

A所有的句子均由步骤2中确定的关键词和非关键词组成；

B其中有些句子中没有出现任何的关键词(根据任务的要求这样的句子可以不出现)；

C其中有些句子中有且仅有一个关键词，有些句子有且仅有两个关键词等等(含有N个关键词的句子的数量根据任务的要求确定)；

这样得到了一个句子列表，并执行步骤4。

步骤33、若步骤31中确定的是数据库的语音总的持续时间，则用随机方法产生一系列句子，这些句子满足如下的要求：

A所有的句子均由步骤2中确定的关键词和非关键词组成；

D每个句子的长度按照下式来计算；

静默长度+所有关键词长度+所有非关键词长度

其中关键词和非关键词的长度根据孤立词语音数据中的标注信息计算：

词长度＝终止时刻-起始时刻

所有的句子的总长度为要求的数据库语音持续的总时间；

这样得到一个句子列表，并执行步骤4。

在上述技术方案中，步骤4具体为：

步骤41、根据步骤3所确定的句子列表以及句子列表中每个句子的关键词和非关键词，确定最终用于关键词检出系统语音数据库中每个句子所需要的来自步骤1所述孤立词语语音数据库的语音文件；其中，根据孤立词语音数据库的结构，有些词表中的词对应着多个语音文件，这时可以根据数据库的需要进行挑选，如无特别要求则随机选取。

步骤42、根据步骤41所确定的每个句子的所有语音内容，以及要求的静默，将各个语音拼接起来得到每个句子的完整语音文件；所以在所得用于关键词检出任务的语音数据库是包含一系列句子的集合，每个句子对应于一个语音文件；但是也可以根据实际的需要将这些句子或者文件进行进一步的组合。

步骤43、根据步骤41和步骤42所确定的语音数据，以及步骤1中确定的每个语音文件的标注内容，得到构造而成的语音数据库每条语音的标注内容，并作适当的表示，作为测试关键词系统的参考答案。

在上述基本方案中，步骤32和步骤33中随机方法产生序列，或称为句子，其具体步骤是：

A产生一个空的序列；

B产生一个根据要求符合特定分布，并在要求范围内的随机数，作为序列的第一个元素；

C重新产生一个同分布的随机数，这个随机数和以前产生的随机数无关，作为序列的下一个元素；

D检查序列的长度是否符合要求，符合则可以停止，输出此序列，如果长度小于要求，则重复C。

本发明的特点

1利用孤立词语音数据库构造关键词检出数据库，规模小、控制简单、录制质量好、整理数据库特别是标注简单；一次录制完成之后，构造出的数据库可以具有相当大的规模，并且其质量和孤立词语音数据库本身一致、标注极易。

2灵活性好；根据不同的关键词检出任务要求，可以方便快速的构造不同的数据库。关键词数量、数据库规模都是可以改变的，以适应不同的关键词检出系统。

3能构造规模较大的语音数据库；在本方法中，基本的数据库是以词为单位的，构造而成的数据库是以句子，其可能的排列组合情况是原始词的数量的幂，而即使在特定的任务中，仅仅选用了其中很小的一部分，这个可能的序列的个数也是十分巨大的，因此可以构造非常大规模的数据库。

4关键词特性可控；由于方法中利用了特定分布的且可以根据要求改变的随机数，并且对句子进行了挑选，可以得到一些理想的特性，这些特性包括：关键词出现的次数、关键词在句子中的位置的分布、每个句子中关键词个数的分布、句子长度的分布、出现关键词句子和没有出现关键词句子的比例、句子的总数；这些特性，除非若干个特性本身是相互关联的，否则均可以通过预先的设定满足任意给定的条件。

5可以通过计算机程序自动完成，效率极高；本方法在构造用于关键词检出数据库的时候，一旦数据库的特性确定，均可以通过计算机程序自动完成，而不需要涉及录音等人工工作；因此可以十分高效的完成特定要求，而且一旦任务要求改变，也可以迅速形成新的符合要求的数据库。

附图说明

图1本发明中方法的步骤流程图；

图2孤立词语音数据库组成；

图3用于关键词检出任务的语音数据库组成；

图4关键词检出任务语音数据库中句子的结构：句子由词组成，其中词可以为关键词、非关键词或者是静默，各个位置(位置1，位置2，位置P，位置L等)均可以为关键词、非关键词或者是静默，但是只能居其一；

图5本发明中构造数据库的详细流程图。

具体实施方式

对于已经存在的关键词检出系统，我们希望对它的系统性能作出评测时，可以依照如下方法构造一个关键词检出任务的语音数据库：

假设有关键词检出系统X，可以处理最多100关键词，对其进行系统性能的测试，希望数据库满足以下条件：

关键词100个，每个关键词出现20次；

句子总数10000个，其中关键词出现一次的1000句，出现两次的200句，出现三次的200句；

句子的平均长度为15个词。

如图1所示，为本发明的快速构造用于关键词检出系统的语音数据库方法流程图，包括如下步骤：

步骤1、利用或者录制孤立词语音数据库：

例如，现有孤立词语音数据库D，其中包含300个词，每个词重复50遍。由于录制的内容为孤立语音数据库，相对连续语音的数据库，其难度和成本都是较小的，以每个词长度约1秒计算，这个语音数据总长度为300*50*1＝15000秒(大约4个小时长度)，而符合测试任务要求的语音数据库大约有10000*15*1＝150000秒(大约40个小时)录制和标注的工作量十分巨大。

步骤2、根据系统测试的要求确定关键词表和非关键词表。

步骤21、首先从孤立词语音数据库D的300个词中随机选取100个词作为待测关键词，记关键词表为KW，其中的第i个关键词记为KW(i)。

步骤22、从孤立词语音数据库D的300个词中剩余的200个词语中挑选出一些词语作为非关键词，例如可以选取所有的200个词作为非关键词，记非关键词表为NKW，其中的第i个非关键词记为NKW(i)。

步骤3、根据关键词检出系统的性能，以及测试的要求，确定测试数据库的参数，诸如句子总数、平均的句子长度、关键词出现次数、数据库总的持续时间等等。

步骤31、根据关键词检出系统的测试要求，每个关键词出现20次，句子总数10000个，其中关键词出现一次的1000句，出现两次的200句，出现三次的200句；句子的平均长度没有指定，可以确定为15个词，句子长度的分布为10~20之间均匀分布。

步骤32、用随机方法产生一系列句子：

例如可以用一个1到200之间的随机变量W1，产生如下的一个长度为10000*15＝150000的序列，分割成长度为10~20的序列10000个，每个序列表示将代表一个句子(每个序列中，每个位置的取值i对应于NKW中一个词，记为NKW(i))，记为集合{S0}；

将S0分成四个互不相交的子集S01，S02，S03和S04，均使用随机挑选的方法，其中S01有8600个句子，S02有1000个句子，S03有200个句子，S04有200个序列；

对S02作如下的处理，对其中的每个句子，随机挑选一个位置P，用关键词表KW中的关键词KW(i)代替，并保证在处理之后的集合S0每个关键词出现10次；

对S03作如下的处理，对其中的每个句子，随机挑选两个个位置P1，P2，且P1≠P2，分别用用关键词表KW中的关键词KW(i)，KW(j)代替，(i可以等于j)，并保证在处理之后的集合S03每个关键词出现2次；

对S04作如下的处理，对其中的每个句子s，随机挑选三个位置P1，P2，P3，且P1、P2和P3种任意两个都不相等，分别用关键词表KW中的关键词KW(i)，KW(j)，KW(k)代替，(i j k可以相等)，并保证在处理之后的集合S04中每个关键词出现3次；

这样经过处理后的集合S01，S02，S03和S04中所有的关键词一共出现2000次并且分布符合测试数据库的要求。

步骤4、按照测试的要求，使用波形拼接的方法将符合关键词检出测试数据要求的关键词和非关键词语音连接成句子，进而生成满足要求的关键词检出测试用数据库。

步骤41、根据集合S01，S02，S03和S04确定每个的句子需要的语音文件(来自数据库D)。

步骤42、根据步骤41，每个句子的内容(指某个句子由哪些来自数据库D的语音文件组成)都已经确定，一般还需要在句子的前后加入一定长度的静默语音段；将每个句子涉及的语音(文件)按照其对应的序列的顺序采用波形拼接的方法连接起来；这些波形拼接的方法见诸于发表的文献。

步骤43、根据步骤41和步骤42所确定的语音数据，对集合S01，S02，S03和S04中每个序列(句子)构造完成之后，可以得到每条语音的文字标注内容，并作适当的表示，作为测试关键词系统的参考答案。

以上构造所得数据库就可用于对关键词检出系统性能进行测试，以上步骤均可以通过计算机程序在较短时间内自动完成，相对实际采集语音数据而言效率极高；并且如果测试要求的数据库特性有所改变，可以迅速构造另一个数据库，这是实际采集的数据库无法比拟的。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制；尽管参照较佳实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解，依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换；而不脱离本发明技术方案的精神，其均应涵盖在本发明请求保护的技术方案范围当中。

Claims

1.快速构造关键词检出任务语音数据库的方法，其中执行以下步骤：

步骤1、录制孤立词的语音数据库；

步骤2、根据关键词检出系统的要求，明确关键词和非关键词，关键词和非关键词均出现在孤立词语音数据库中；

步骤3、根据关键词检出系统的要求，确定所需数据库的参数，这些参数包括句子总数、平均的句子长度、关键词出现次数、数据库总的持续时间，参数可以是其中之一或者任意组合或者全部；

步骤4、按照任务的要求，使用波形拼接的方法将符合关键词检出任务的关键词和非关键词语音连接成句子，进而生成满足要求的关键词检出任务数据库。

2.根据要求1所述的方法，步骤2具体为：

步骤21、根据关键词检出系统任务的要求，确定所需中关键词的数量和词表，这些词表中的词均在步骤1中的孤立词语语音数据库中出现；

步骤22、在孤立词语语音数据库中出现而没有被确定为关键词的词语中，挑选确定非关键词。

3.根据要求1所述的方法，步骤3具体为：

步骤31、根据关键词检出系统的的要求，确定每个关键词出现的次数，句子的平均长度，句子的总数或者数据库语音总的持续时间；

A所有的句子均由步骤2中确定的关键词和非关键词组成；

B其中有些句子中没有出现任何的关键词，根据任务的要求决定这样的句子的数量；

C其中有些句子中有且仅有一个关键词，有些句子有且仅有两个关键词，直到含有N个关键词的句子，这里N为大于2的整数，这些句子的数量根据任务的要求确定；

这样得到了一个句子列表，并执行步骤4；

A所有的句子均由步骤2中确定的关键词和非关键词组成；

D每个句子的长度按照下式来计算：

静默长度+所有关键词长度+所有非关键词长度

词长度＝终止时刻-起始时刻

所有的句子的总长度为要求的数据库语音持续的总时间；这样得到一个句子列表，并执行步骤4。

4.根据要求1所述的方法，步骤4具体为；

步骤41、根据步骤3所确定的句子列表以及句子列表中每个句子的关键词和非关键词，确定最终用于关键词检出系统语音数据库中每个句子所需要的来自步骤1所述孤立词语语音数据库的语音文件；

步骤42、根据步骤41所确定的每个句子的所有语音内容，以及要求的静默，将各个语音拼接起来得到每个句子的完整语音文件；所以在所得用于关键词检出任务的语音数据库是包含一系列句子的集合，每个句子对应于一个语音文件；但是也可以根据实际的需要将这些句子或者文件进行进一步的组合；

步骤43、根据步骤41和步骤42所确定的语音数据，可以得到每条语音的文字标注内容，并作适当的表示，作为测试关键词系统的参考答案。