CN109859746A

CN109859746A - 一种基于tts的语音识别语料库生成方法及系统

Info

Publication number: CN109859746A
Application number: CN201910057599.5A
Authority: CN
Inventors: 虞焰兴; 徐勇
Original assignee: Anhui Voice Communication Information Technology Co Ltd
Current assignee: Anhui Voice Communication Information Technology Co Ltd
Priority date: 2019-01-22
Filing date: 2019-01-22
Publication date: 2019-06-07
Anticipated expiration: 2039-01-22
Also published as: CN109859746B

Abstract

本发明公开了一种基于TTS的语音识别语料库生成方法，其特征在于，所述生成方法包括：向数据池导入原始语音数据；TTS转换器同时导入文字标注和TTS语音数据给数据池；数据池对其中的语音数据和文字标注进行分析和处理，生成语料；数据池导出语料，语料存进语料库并生成备份语料；语料库将备份语料的语音部分和文字标注部分分离，语音部分送回数据池，文字标注部分送回TTS转换器。本发明通过基于TTS的语音识别语料库生成方法及系统，使语料库的生成及更新不再靠人工添加语料，因其可以不间断工作提高了工作效率，减少了人工录音降低了成本，同时大大减轻了工作人员的工作压力。

Description

一种基于TTS的语音识别语料库生成方法及系统

技术领域

本发明属于智能语音技术领域，特别涉及一种基于TTS的语音识别语料库生成方法及系统。

背景技术

语言是人类进行信息交流的最主要、最常用、最直接的方式。语音智能识别技术既计算机自动语音识别技术是实现人-机对话的一项重大突破，近年来发展十分迅速，其应用也逐步得到推广。

语音识别技术的识别度跟其自身的语料库大小密切相关，语音识别时需要在其语料库中搜索到对应的语料，然后才能识别出语音的内容。一旦语料库过小，在进行语音识别时找不到对应的语料，自然就会识别不出语音的内容，导致识别度低。因此，人们都在尽最大的努力扩大语料库，以提高语音识别的识别度。

目前，扩大语料库的办法都是人为手动去向语料库中添加语料，需要更新语料库时，就会聘请很多人，让这些人进行说话，然后将这些话录音下来，再将这些语音分别与对应的文字标注绑定在一起，形成语料，最后将这些语料存进语料库中。这样做有很多缺点，首先工作效率低，其次成本较高，最后当语料库更新频繁时会大大增加工作人员的工作量。

发明内容

针对上述问题，本发明提供了一种基于TTS的语音识别语料库生成方法及系统。

一种基于TTS的语音识别语料库生成方法，所述生成方法包括：

向数据池导入原始语音数据；

TTS转换器同时导入文字标注和TTS语音数据给数据池；

数据池对其中的语音数据和文字标注进行分析和处理，生成语料；

数据池导出语料，语料存进语料库并生成备份语料；

语料库将备份语料的语音部分和文字标注部分分离，语音部分送回数据池，文字标注部分送回TTS转换器。

进一步地，所述数据池具有以下功能：

接收外界语音数据；

存储语音；

改变数据池内语音的属性；

将TTS语音与数据池内的语音匹配到一起；

将文字标注绑定到数据池内的语音上。

进一步地，所述TTS转换器同时导入到数据池的文字标注和TTS语音具有相同内容，所述TTS转换器同时导入到数据池的文字标注和TTS语音绑定在一起。

进一步地，所述外界语音数据包括外界的录音和设备传输的语音，所述外界的录音需要提前经过噪音过滤处理，所述外界的录音或设备传输的语音需要不断更新。

进一步地，所述语音的属性包括语速、语调。

进一步地，所述TTS语音和所述文字标注为所述TTS转换器同时导入到所述数据池的TTS语音和文字标注。

进一步地，所述TTS语音和匹配在一起的所述数据池内的语音具有相同内容，所述文字标注和绑定在一起的所述数据池内的语音具有相同内容。

进一步地，所述语料为绑定文字标注的数据池语音。

一种基于TTS的语音识别语料库生成系统，所述生成系统包括数据池模块、TTS模块、语料库模块：

所述数据池模块，用于分析并处理数据池内的语音数据和文字标注；

所述TTS模块，用于读取文字或文字标注，并将文字标注和TTS语音绑定在一起导入到数据池模块；

所述语料库模块，用于语料存储、语料备份和循环。

进一步地，所述数据池模块包括接收单元、语音存储单元、语音调节单元、匹配单元和绑定单元：

所述接收单元，用于接收外界语音数据；

所述语音存储单元，用于存储语音；

所述语音调节单元，用于改变存储单元内语音的属性；

所述匹配单元，用于将TTS语音与存储单元内的语音匹配到一起；

所述绑定单元，用于将文字标注绑定到存储单元内的语音上。

进一步地，所述语料库模块包括语料存储单元、语料备份单元和循环反馈单元：

所述语料存储单元，用于存储语料；

所述语料备份单元，用于备份语料；

所述循环反馈单元，用于将备份语料的语音部分和文字标注部分分离，并将语音部分送回数据池模块，文字标注部分送回TTS模块。

本发明通过基于TTS的语音识别语料库生成方法及系统，使语料库的生成及更新不再靠人工添加语料，因其可以不间断工作提高了工作效率，减少了人工录音降低了成本，同时大大减轻了工作人员的工作压力。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本发明实施例的基于TTS的语音识别语料库生成方法的流程图；

图2示出了根据本发明实施例的基于TTS的语音识别语料库生成系统的结构图；

图3示出了根据本发明实施例的文本处理算法流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种基于TTS的语音识别语料库生成方法及系统。

示例性的，如图1示出了基于TTS的语音识别语料库生成方法。具体生成方法包括以下步骤：

步骤一：向数据池导入原始语音数据。

具体的，所述数据池具有以下功能：

接收外界语音数据；

示例：外界语音数据可以是人们说出“你们大家好”被录音下来，也可以是设备传输过来的语音文件内容为“我们都很好”，而语音“你们大家好”被录音后需要进行噪音过滤处理，避免影响后期语音识别的精确度，然后“你们大家好”和“我们都很好”都会以语音数据的形式通过数据传输接口传输给数据池并存储。后期需要经常对数据池中的语音进行更新，即添加新的语音，添加的语音可以是相同属性不同内容的语音，也可以是不同属性不同内容的语音。

存储语音；

存储原始语音数据、TTS语音数据和循环反馈回来的语音数据。其中，TTS语音是通过TTS(Text To Speech，文语转换)转换器将文字或文字标注转换成的语音，具体步骤如下：

文本分析：对输入文本进行语言学分析，逐句进行词汇、语法和语义的分析，以确定句子的低层结构和每个字的音素的组成，包括文本的断句、字词切分、多音字的处理、数字的处理、缩略语的处理等；

语音合成：把处理好的文本所对应的单字或短语从语音合成库中提取，把语言学描述转化成言语波形；

韵律处理：合成音质(QualityofSyntheticSpeech)是指语音合成系统所输出的语音的质量，一般从清晰度(或可懂度)、自然度和连贯性等方面进行主观评价。清晰度是正确听辨有意义词语的百分率；自然度用来评价合成语音音质是否接近人说话的声音，合成词语的语调是否自然；连贯性用来评价合成语句是否流畅。

示例1：对文本的处理。文本“你们大家好”，将文本“你们大家好”输入TTS转换器，TTS转换器对文本“你们大家好”进行分析，将文本拆成“你”、“们”、“大”、“家”、“好”五个字，每个字在文库中有对应的文字标注，其中“ni3”对应“你”，“men2”对应“们”，“da4”对应“大”，“jia1”对应“家”，“hao3”对应“好”，通过文字标注在语音合成库中提取相应的语音“你”、“们”、“大”、“家”、“好”，通过语言学分析组成词组，“ni3men2”对应语音“你们”，“da4jia1”对应语音“大家”，“hao3”对应语音“好”，形成TTS语音“你们大家好”。然后，语音“你们”标注“ni3men2”，语音“大家”标注“da4jia1”，语音“好”标注“hao3”。其中，TTS语音“你们大家好”是以言语波形的形式呈现的。最后，可以对TTS语音的韵律进行调整。

示例2：对标点符号的处理。文本“你们，大家好。”，文字部分的处理方法同上示例1所述，“，”和“。”均标注为停顿一段时间，其中“。”停顿时间大于“，”停顿时间，例如：“，”停顿0.5秒，“。”停顿1秒。

示例3：对多音字的处理。例如文本“着急”，其中“着”的文字标注有“zhao2”、“zhe0”、“zhuo2”，词组的文字标注就会有“zhao2ji2”、“zhe0ji2”、“zhuo2ji2”，通过与多音字词库匹配，在多音字词库中找到“zhao2ji2”，“zhao2ji2”即为“着急”的发音，因此语音“着急”标注“zhao2ji2”。

示例4：对数字的处理。将数字拆开成单个元素，以对应汉字的发音读出，通过确定数字的位数，在读音中加入其相应单位。例如：“2018”，将其拆开成“2”、“0”、“1”、“8”，其中“2”以“二”的语音发出，“0”以“零”的语音发出，“1”以“一”的语音发出，“8”以“八”的语音发出。“2018”的位数为4，“2”、“0”、“1”、“8”的单位依次为“千”、“百”、“十”、“个”，其中数字“0”的单位不作发音，此处为“百”，只作其汉字“零”发音，最后一位数字的单位也不作发音，此处为“个”，只作其汉字“八”发音。因此，“2018”的读音为“二千零一十八”，“二千零一十八”的文字标注为“er4qian1ling2yi1shi2ba1”。当最后一位或最后几位数字为“0”时，“0”不作发音，如20、120、200。对于数字编号和电话号码，每个数字标注其对应汉字的文字标注。

示例5：对于英文的处理。文本“how are you”，在英文词库中找到对应单词的语音，将“how are you”直接作为该语音的文字标注。英文缩略语“HTTM”，将字母逐个读出，并将该字母作为该语音的文字标注。

文本处理的算法流程如图3所示，包括以下步骤：

(1)变量初始化；

(2)判断是否满足终止条件，若No，执行下一步，若Yes，结束；

(3)读取数据，数据的类型主要为汉字、英文、数字和标点符号；

(4)判断是否为汉字，若Yes，执行下一步；若No，按照相应方式处理，主要是英文、数字的朗读及停顿，执行(6)；

(5)在多音字词库中查询是否为多音字词汇，若No，按照单音字处理，若Yes，按照多音字方式处理；

(6)返回(2)直至满足终止条件。

其中，终止条件为文本结束。

具体的，语音合成程序代码如下：

其中的语音token即为文字标注。

改变数据池内语音的属性；

进一步地，所述语音的属性包括语速、语调。

示例：原始语音“你们大家好”，语速为一级，语调为平缓，可以改变原始语音的一种属性或同时改变原始语音的多种属性。比如：修改后语音“你们大家好”，语速为三级，语调为平缓；修改后语音“你们大家好”，语速为一级，语调为高昂；修改后语音“你们大家好”，语速为三级，语调为高昂。

将TTS语音与数据池内的语音匹配到一起；

进一步地，所述TTS语音和匹配在一起的所述数据池内的语音具有相同内容。其中，匹配方式是通过词组或单字来实现的。当TTS语音在数据池中无法匹配到语音或数据池中的语音无法匹配到TTS语音时，TTS语音或数据池语音就会被搁置，等待匹配。

示例1：TTS语音“你们大家好”，拆成词组和单字就是“你们_T”、“大家_T”、“好_T”，数据池语音“你们大家好”，拆成词组和单字就是“你们_D”、“大家_D”、“好_D”，匹配时“你们_T”匹配“你们_D”、“大家_T”匹配“大家_D”、“好_T”匹配“好_D”；

示例2：TTS语音“你们大家好”，拆成词组和单字就是“你们_T”、“大家_T”、“好_T”，数据池语音“你们好”，拆成词组和单字就是“你们_D”、“好_D”，匹配时“你们_T”匹配“你们_D”、“好_T”匹配“好_D”。

将文字标注绑定到数据池内的语音上。

进一步地，所述文字标注和绑定在一起的所述数据池内的语音具有相同内容。其中，绑定方式是通过词组或单字来实现的。

示例1：文字标注“ni3 men2 da4 jia1 hao3”，“ni3 men2 da4 jia1 hao3”的含义就是“你们大家好”，即“ni3”对应“你”，“men2”对应“们”，“da4”对应“大”，“jia1”对应“家”，“hao3”对应“好”，并且“ni3 men2 da4 jia1 hao3”与TTS语音“你们大家好”绑定，绑定的形式也是通过词组或单字来实现的，即“ni3 men2”与“你们_T”绑定，“da4 jia1”与“大家_T”绑定，“hao3”与“好_T”绑定。当TTS语音与数据池语音匹配后，通过“你们_T”匹配“你们_D”、“大家_T”匹配“大家_D”、“好_T”匹配“好_D”，从而将“ni3 men2”绑定到“你们_D”，“da4 jia1”绑定到“大家_D”，“hao3”绑定到“好_D”，文字标注“ni3 men2 da4 jia1 hao3”即与数据池语音“你们大家好”绑定到了一起。语音识别数据池语音“你们大家好”时，就会得到文字标注“ni3men2 da4 jia1 hao3”，从而得到数据池语音是“你们大家好”的意思。

示例2：文字标注“ni3 men2 da4 jia1 hao3”，“ni3 men2 da4 jia1 hao3”的含义就是“你们大家好”，即“ni3”对应“你”，“men2”对应“们”，“da4”对应“大”，“jia1”对应“家”，“hao3”对应“好”，并且“ni3men2 da4 jia1 hao3”与TTS语音“你们大家好”绑定，绑定的形式也是通过词组或单字来实现的，即“ni3 men2”与“你们_T”绑定，“da4 jia1”与“大家T”绑定，“hao3”与“好_T”绑定。当TTS语音与数据池语音匹配后，通过“你们_T”匹配“你们_D”、“好_T”匹配“好_D”，从而将“ni3 men2”绑定到“你们_D”，“hao3”绑定到“好_D”，文字标注“ni3 men2hao3”即与数据池语音“你们好”绑定到了一起。语音识别数据池语音“你们好”时，就会得到文字标注“ni3 men2 hao3”，从而得到数据池语音是“你们好”的意思。

其中，所述TTS语音和所述文字标注为所述TTS转换器同时传送给所述数据池的TTS语音和文字标注。

步骤二：TTS转换器同时传送文字标注和TTS语音给数据池。

具体的，所述TTS转换器同时传送的文字标注和TTS语音具有相同内容。

示例：传送的文字标注“ni3 men2 da4 jia1 hao3”，“ni3 men2 da4 jia1 hao3”代表“你们大家好”，传送的TTS语音内容为“你们大家好”，即文字标注与TTS语音具有相同内容。

步骤三：数据池对其中的语音数据和文字标注进行分析和处理，生成语料。

具体的，数据池将TTS语音与数据池语音匹配到一起后，将TTS语音上绑定的文字标注绑定到数据池语音上，绑定文字标注的数据池语音即为语料。

示例：语料可以是绑定文字标注“ni3 men2 da4 jia1 hao3”的语音“你们大家好”，也可以是绑定文字标注“ni3 men2 hao3”的语音“你们好”。

步骤四：数据池导出语料，语料存进语料库并生成备份语料。

具体的，语料被数据池导出后进入语料库被存储，同时，语料库将语料备份一份。

步骤五：语料库将备份语料的语音部分和文字标注部分分离，语音部分送回数据池，文字标注部分送回TTS转换器。

示例：备份语料“你们大家好”会被拆开为文字标注“ni3 men2 da4 jia1 hao3”和语音“你们大家好”，文字标注“ni3 men2 da4 jia1 hao3”被送回到TTS转换器，语音“你们大家好”被送回到数据池。

文字标注被送回到TTS转换器后将会被TTS转换器再次提取，TTS转换器读取出该文字标注的内容后转换成TTS语音，然后再次将文字标注和TTS语音绑定在一起传送给数据池。语音被送回到数据池后，数据池会对语音的属性进行改变。改变语音属性后的语音会再次与文字标注进行绑定，形成新的语料，语料导出进入语料库存储。然后新的备份语料的语音部分和文字标注部分被分离，语音部分送回数据池，文字标注部分送回TTS转换器。如此循环，不断形成新的语料，不断对语料库进行更新。

示例：文字标注“ni3 men2 da4 jia1 hao3”被送回到TTS转换器，TTS转换器读取出“ni3 men2 da4 jia1 hao3”的内容为“你们大家好”，将“你们大家好”转换成TTS语音“你们大家好”，然后再次将文字标注“ni3 men2 da4 jia1 hao3”和TTS语音“你们大家好”绑定在一起传送给数据池。语音“你们大家好”被送回到数据池，此时的语音“你们大家好”属性为：语速为一级，语调为平缓；经过数据池改变语音的属性，语音“你们大家好”的属性变为：语速为三级，语调为高昂。数据池将新语音“你们大家好”与文字标注“ni3 men2 da4 jia1hao3”进行绑定，形成新的语料，新语料存储进语料库中，备份新语料的文字标注“ni3 men2da4 jia1 hao3”和语音“你们大家好”再次被拆开，文字标注“ni3 men2 da4 jia1 hao3”被送回TTS转换器，语音“你们大家好”被送回数据池。

为了实现本实施例基于TTS的语音识别语料库生成方法，设置了一种基于TTS的语音识别语料库生成系统。如图2所示，该生成系统包括数据池模块、TTS模块、语料库模块。

数据池模块，对其中的语音数据和文字标注进行分析和处理，生成语料；

具体的，数据池模块包括接收单元、语音存储单元、语音调节单元、匹配单元和绑定单元：

接收单元，接收外界语音数据；

语音存储单元，存储语音；

语音调节单元，改变存储单元内语音的属性；

匹配单元，将TTS语音与存储单元内的语音匹配到一起；

绑定单元，将文字标注绑定到存储单元内的语音上。

TTS模块，读取文字或文字标注，并将文字标注和TTS语音绑定在一起导入到数据池模块；

语料库模块，存储语料、备份语料和循环反馈；

具体的，语料库模块包括语料存储单元、语料备份单元和循环反馈单元：

语料存储单元，存储语料；

语料备份单元，备份语料；

循环反馈单元，将备份语料的语音部分和文字标注部分分离，并将语音部分送回数据池模块，文字标注部分送回TTS模块。

本实施例中基于TTS的语音识别语料库生成方法和系统，使语料库的生成及更新不再靠人工添加语料，因其可以不间断工作提高了工作效率，减少了人工录音降低了成本，同时大大减轻了工作人员的工作压力。

本示例文字标注中的“0”表示轻声调，“1”表示第一声调，“2”表示第二声调，“3”表示第三声调，“4”表示第四声调。本实施例中的下标“T”和“D”分别代表TTS语音和数据池语音，仅仅是为了在本示例说明中便于区分TTS语音和数据池语音，无其他实际含义。

尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于TTS的语音识别语料库生成方法，其特征在于，所述生成方法包括：

向数据池导入原始语音数据；

TTS转换器同时导入文字标注和TTS语音数据给数据池；

数据池导出语料，语料存进语料库并生成备份语料；

2.根据权利要求1所述的生成方法，其特征在于，所述数据池具有以下功能：

接收外界语音数据；

存储语音；

改变数据池内语音的属性；

将TTS语音与数据池内的语音匹配到一起；

将文字标注绑定到数据池内的语音上。

3.根据权利要求1或2所述的生成方法，其特征在于，所述TTS转换器同时导入到数据池的文字标注和TTS语音具有相同内容，所述TTS转换器同时导入到数据池的文字标注和TTS语音绑定在一起。

4.根据权利要求2所述的生成方法，其特征在于，所述外界语音数据包括外界的录音和设备传输的语音，所述外界的录音需要提前经过噪音过滤处理，所述外界的录音或设备传输的语音需要不断更新。

5.根据权利要求2所述的生成方法，其特征在于，所述语音的属性包括语速、语调。

6.根据权利要求2所述的生成方法，其特征在于，所述TTS语音和所述文字标注为所述TTS转换器同时导入到所述数据池的TTS语音和文字标注。

7.根据权利要求2所述的生成方法，其特征在于，所述TTS语音和匹配在一起的所述数据池内的语音具有相同内容，所述文字标注和绑定在一起的所述数据池内的语音具有相同内容。

8.根据权利要求1所述的生成方法，其特征在于，所述语料为绑定文字标注的数据池语音。

9.一种基于TTS的语音识别语料库生成系统，其特征在于，所述生成系统包括数据池模块、TTS模块、语料库模块：

所述语料库模块，用于语料存储、语料备份和循环。

10.根据权利要求9所述的生成系统，其特征在于，所述数据池模块包括接收单元、语音存储单元、语音调节单元、匹配单元和绑定单元：

所述接收单元，用于接收外界语音数据；

所述语音存储单元，用于存储语音；

所述语音调节单元，用于改变存储单元内语音的属性；

11.根据权利要求9所述的生成系统，其特征在于，所述语料库模块包括语料存储单元、语料备份单元和循环反馈单元：

所述语料存储单元，用于存储语料；

所述语料备份单元，用于备份语料；