CN1737902A

CN1737902A - 文字语音互转装置

Info

Publication number: CN1737902A
Application number: CNA2005100194277A
Authority: CN
Inventors: 周运南; 罗健; 卢耀素; 谢守芳; 康宏灿; 周新南
Original assignee: 周运南
Priority date: 2005-09-12
Filing date: 2005-09-12
Publication date: 2006-02-22
Anticipated expiration: 2025-09-12
Also published as: CN100349206C

Abstract

本发明公开了一种文字语音互转装置；涉及一种利用关键字识别与模糊匹配相结合实现语音识别和语音合成的集成技术。①手写屏1、前置功率放大器3、模数转换器4、主控系统5、数模转换器7、后置功率放大器8、音频输出器9依次连通，主控系统5和存储系统6相互连通，语音合成模块5B和语音合成模型库6相互调用，实现文字语音转换；②麦克风2、前置功率放大器3、模数转换器4、主控系统5、电子显示屏10依次连通，主控系统5和存储系统6相互连通，语音识别模块5C和语音识别模型库6C相互调用，实现语音文字转换。本发明语音合成、语音识别的整体性、实用性好，主要用于语音短信输入方式和作为听障人与健全人交流的辅助设备等。

Description

文字语音互转装置

技术领域

本发明涉及语音识别和语音合成技术；尤其涉及利用关键字识别与模糊匹配相结合实现语音识别和语音合成的集成技术。

背景技术

语音识别技术是2000年至2010年间信息技术领域的十大重要的科技发展技术之一。Intel的摩尔曾指出，语音技术将是影响未来科技发展最关键的技术。在信息技术时代，信息化社会对信息新技术的应用显得尤为迫切，许多技术已经走入人们的生活，给人类的生活带来极大的便利。语音识别作为人与机器间最自然、最具人性化的交流方式，受到人们极大的期待。在本发明提出之前，国内外有很多公司和学术机构都在从事这方面的研究；目前，IBM拥有全球领先的语音识别技术。许多现今广泛使用的语音识别技术是由IBM首先提出的。另外，Intel，Philips等公司也正在相应领域内进行语音技术研究。国内汉王公司、科大迅飞和海尔等公司也在从事语音技术的研究与开发。

目前，语音技术在实际应用中面临三大难题：

首先是方言或口音会降低语音识别率，而对于拥有八大方言区的中文来说，应用的难度会更大。

其次是背景噪音，人多的公共场所巨大的噪音将破坏原始语音的频谱，或者把原始语音部分全部掩盖掉，造成识别率下降；

第三是“口语”的问题，用户以跟人交谈的方式来进行语音输入时，口语的语法不规范和语序不正常的特点会给语义的分析和理解带来困难。

因此，虽然世界各国都加快了语音技术应用系统的研发，并已有一些使用语音系统投入使用，但大部分产品只能在实验室环境中才能表现出较好和较稳定的语音识别性能，而真正投入市场作为民用的语音产品数量很少。目前，嵌入式系统语音技术处于刚刚起步阶段，而且由于语音技术的复杂性，目前的语音产品都是单一的语音合成，或者单一的语音识别产品，没有将两者结合在一起的产品问世，同时由于汉语发声和结构的制约，目前国内外尚没有成熟的汉语语音产品。

发明内容

本发明的目的就在于克服现有技术存在的缺点和不足，而提供一种文字语音互转装置。“文字语音互转”就是将语音合成(文字语音转换)功能和语音识别(语音文字转换)功能集成于一个装置内，能够同时实现文字、语音的双向输入和双向输出。

本发明的目的是这样实现的：

在总结国内外经验的基础上，拟将汉语语音合成模块，汉语语音识别模块，以及语料库整合在一个系统中，实现语音输入，语音输出，文字输入，文字输出的交互使用。拟采用将关键词识别，模糊匹配，并结合自适应语音集训练的方法，增强系统语音识别的鲁棒性、抗噪性和可扩展性，提高识别速度，达到理想的语音识别效果。

如图1，本装置由手写屏1、麦克风2、前置功率放大器3、模数转换器4、主控系统5、存储系统6、数模转换器7、后置功率放大器8、音频输出器9、电子显示屏10组成；

所述的主控系统5包括中央处理器5A、语音合成模块5B、语音识别模块5C；

所述的存储系统6包括存储器6A、语音合成模型库6B、语音识别模型库6C；

①手写屏1、前置功率放大器3、模数转换器4、主控系统5、数模转换器7、后置功率放大器8、音频输出器9依次连通，主控系统5和存储系统6相互连通，语音合成模块5B和语音合成模型库6相互调用，实现文字语音转换；

②麦克风2、前置功率放大器3、模数转换器4、主控系统5、电子显示屏10连接依次连通，主控系统5和存储系统6相互连通，语音识别模块5C和语音识别模型库6C相互调用，实现语音文字转换；

所述的语音合成模块5B是将输入的文字信息转换成对应的语音信息输出；

所述的语音识别模块5C是利用关键字识别与模糊匹配的方法将输入的语音信息转换成对应的文字信息输出；

所述的语音合成模型库6B是存放用于语音合成的语音音节波形编码、音律信息、匹配规则的库；

所述的语音识别模型库6C是一种能够自适应生成关键字语音特征的库，该库还存放用于语音识别的文本数据、关键字匹配规则、语义模糊匹配规则。

本装置的工作原理是：

1、文字语音转换

通过电子手写屏1捕捉到的汉字，经拾文模块(包括手写屏1、前置功率放大器3和模数转换器4)获得的文字数据，交由主控系统5中的语音合成模块5B进行文字语音转换，根据语音合成模型库6B的匹配规则，转换为相应的数字语音，再通过数模转换器8，转换为模拟语音信号，又经过后置功率放大器8进行功率放大后，再送到音频输出器9，输出相应的语音信号。

2、语音文字转换

通过麦克风2输入的模拟语音信号，经拾音模块(即麦克风2、前置功率放大器3和模数转换器4)获得的语音数据，交由主控系统5中的语音识别模块5C进行语音文字转换，根据语音识别模型库6C的匹配规则，转换为与语音信号匹配的文字，再由电子显示屏10输出。

本装置的操作步骤：

在手写屏1上输入文字，输入完成后，点击“确定”。该装置会自动念出输入的文字串。

对着麦克风说话，最后说“完成”。该装置会将输入的语音转换为相应的文字，在电子显示屏10上显示。

本发明有下列优点和积极效果：

1、语音合成效果好

本发明是在总结国内外本技术领域的先进经验和教训后，在语音合成技术上，采用了目前被广泛使用、并被证明是行之有效的方法：波形拼接法。在其基础上，辅以隐马尔可夫模型进行选音工作，从而达到准确率高，音质好的语音合成效果。

2、语音识别效果好

在语音识别的实现上，我们采用识别语句中的关键词，再使用模糊匹配，多层定位，和回溯筛选的方法，得出整个语句的内容，再配合语义分析等辅助手段实现高识别率。由于关键词识别速度较快，而模糊匹配的方法对噪声的适应性好，且多层定位和回溯筛选可以有效地降低误识率，因此，将这几种方法结合在一起进行语音识别，能有效的提高系统的语音识别能力。

3、整体性和实用性好

借助先进的电子技术，将本发明集成在微型电路板上，再辅以手写屏1、麦克风2、音频输出器9、电子显示屏10等高级嵌入式电子设备，实现语音技术的整体化和实用化，使用和携带方便。

4、用途广泛

本发明主要用于语音短信输入方式和作为听障人与健全人交流的辅助设备等。

附图说明

图1—本发明组成框图；

图2—语音合成模块流程图；

图3—语音识别模块流程图；

图4—语音合成模型库流工作程图；

图5—语音识别模型库工作流程图；

图6—关键字最优模型数据建库流程图。

其中：

1—手写屏；

2—麦克风；

3—前置功率放大器；

4—模数转换器；

5—主控系统，5A—中央处理器，5B—语音合成模块，5C—语音识别模块；

6—存储系统，6A—存储器，6B—语音合成模型库，6C—语音识别模型库；

7—数模转换器；

8—后置功率放大器；

9—音频输出器；

10—电子显示屏。

具体实施方式

下面结合附图进一步说明。

一、本装置的硬件配置

所述的手写屏1其典型产品是Acer(宏基)TravelMate；

所述的麦克风2其典型产品是索尼ECM-MS908C；

所述的前置功率放大器3其典型产品是STA5150；

所述的模数转换器4其典型产品是ADS527X；

所述的中央处理器5A其典型产品是ISP1160/01；

所述的存储器6A—其典型产品是Am29SL800D；

所述的数模转换器7其典型产品是CS434X；

所述的后置功率放大器8其典型产品是STA5150；

所述的音频输出器9其典型产品是微型扬声器；

所述的电子显示屏10其典型产品是液晶或LED显示屏。

二、本装置的软件

1、语音合成模块5B的工作流程

如图2，语音合成模块5B的流程是：输入文字a→语音合成模型库6B→波形编码匹配c(匹配成功)→输出语音c；

波形编码匹配c(匹配失败)→(重新)输入文字a。

语音合成模块5B是采用有调音节作为合成单元；在语音合成模型库6B中存放着所有音节的波形编码，然后根据每个输入文字a的拼音、声调、停顿等音律信息，从语音合成模型库6B中挑选出合适的波形编码，然后拼接起来成为输出语音c。

2、语音识别模块5C的工作流程

如图3，语音识别模块5C的工作流程是：输入语音串d→提取特征矢量e→语音识别模型库6C→关键字匹配f(匹配成功)→语义模糊匹配g(匹配成功)→输出文字；

关键字匹配f(匹配失败)→(重新)输入语音串d；

语义模糊匹配g(匹配失败)→(重新)输入语音串d。

首先需要针对本发明所涉及的特定领域的关键词和非关键词作统计及定义，并建立关键词与非关键词模型；然后，针对这一领域的句型进行分析，并建立多重关键词语法规则，然后利用关键词语法规则筛选可能的关键词，再为每个关键字建立最优隐马尔可夫模型。

然后把输入语音串d的音节作为识别单元，利用美尔倒谱公式计算音节单元的美尔倒谱参数、一阶差分美尔倒谱参数，然后结合音节的基音周期，形成3维语音特征矢量。再利用隐马尔可夫计算公式，得到每个多维特征矢量与每个关键字最优隐马尔可夫模型的吻合概率，选取吻合概率最高的关键字模型作为该特征矢量的语音输出结果。再利用模糊匹配技术，通过对语音串中所包含的关键字集，得到该语音串的完整语义，再根据语义转换为相应的文字输出。

3、语音合成模型库6B的工作流程

如图4，语音合成模型库6B的工作流程是：(文字输入端)文字匹配i→文本数据j→波形编码匹配规则k→波形编码数据1(语音输出端)。

4、语音识别模型库6C的工作流程

如图5，语音识别模型库6C的流程是：(语音输入端)关键子识别规则m→关键字最优模型数据n→语义模糊匹配o→文本数据p(文字输出端)。

5、关键字最优模型数据n建库的工作流程

如图6，关键字最优模型数据n建库的工作流程是：初始关键字语料q→库中是否存在该语料(存在)→系统提示该关键字模型已存；

库中是否存在该语料(不存在)→二元文法语音模型建模s→模型训练u→关键字最优模型数据v。

首先在语音识别模型库6C中查询录入的初始关键字语料是否已经存在其最优训练模型，如果已经存在，则系统提示“已存在”；若系统未提示“已存在”，则利用二元文法语音模型(bigram)对该关键字语料建模，并要求多次录入，对该模型进行训练，直到得到系统认定的该关键字最优模型数据，则把该模型数据存入语音识别模型库6C中。

三、实施要点

1、上述的语音合成模型库6B和语音识别模型库6C合称语音库。

在语音库的实现中，我们采用bigram数学模型对语料转换过程进行训练，训练的方法是将实地使用者之间的对话语音数据转换成文字之后，进行bigram语言模型的建立。其建立的公式如下所示：

P (W_{0} | W_{n}) Π_{i = 1}^{n} P (W_{i} | W_{i - 1})

其中，(W₀，...，W_n)是组成一个句子的字符串，而P(Wi|Wi-1)是表示Wi跟着Wi-1出现的概率。借助这个统计的公式，可以求出字与字之间的相关的概率，概率越大表示在一个句子当中，连续出现的可能性越大，因此可以用来断词、配词。同时该库还具有数据导入，导出功能，可以实现语料的共享和语音库的升级功能。

综上所述，本库是通过智能识别，动态配词技术，帮助用户自录语料，从而建立完成的语音库。

这样，语音库本身就具有动态性，对进入语音库中进行匹配的语音样本，可以智能、动态地在语音库中进行搜索匹配，从而达到稳定、快速、准确地匹配输出工作。

2、在语音合成模块5B的实现中，本发明在语音合成模型库6B中存放着所有音节的波形编码。在此，本发明为这些波形编码创建了索引文件，记录每个音节的起始位置和长度。根据每个输入汉字的拼音、声调、停顿等音律信息，从语音数据库中挑选出合适的波形编码，然后拼接起来成为输出语音。建立索引可以提高模型库查找数据的准确性，提高查找速度。

3、在语音识别模块5C的实现中，本发明采用关键字识别，递归筛选，语义模糊匹配的方式进行语音识别。通过对语音交流场景的调查和分析，一般交流的语言中通常包含了两部分的信息：一是所想表达的目的，例如是要对于地点询问的回答、问候、对于寻求帮助的回答等等；二是句子中所包含的关键特征，例如航空路、中山公园、星期五、300元等等。而为了获得整句中的这两项信息，对每个句子进行二重处理。也就是，先找出其目的类别(SORT)，再找出其内涵的关键特征。

根据所收集的语库进行分析，交流目的可分成五类：

(1)问候：“您好，很高兴见到你。”

(2)地点询问回答：“中山公园在解放大道101号。”

(3)行车路线解释：“从这里到中山公园你可以坐703路公汽。”

(4)价格询问回答：“这个手机1000元？”

(5)肯定/否定语气：“不是的。”“是的。”

而决定整句是属于哪一个SORT的方法，有以下判断方法：

a)若输入的句型有(1)、(2)、(3)、(4)、(5)的特征，则其SORT就分别是(1)、(2)、(3)、(4)、(5)。

b)若句子中只含关键特征，就内定它的SORT为(2)。

c)如果这次输入与上次含有相同的关键特征，但SORT值不同，是为了订正，取它的SORT为(3)。

d)其余无法得知的，SORT为(1)。

在收集SORT句型时，尽量保持完整，但仍然有些句型可能只是类似，所以在判断SORT时，不能只进行单纯的对比。例如“从这里到中山公园可以坐703路公汽”是SORT的“行车路线解释句型”，而用户在实际使用时说的可能是“703路公汽可以到中山公园”并不完全相同。在这里可以用一种模糊匹配的概念来做SORT确认。像上面“从这里到XXX可以坐XXX”和“XXX路公汽可以到XXX”相似度很大，所以虽然SORT中没有“XXX路公汽可以到XXX”，但它的SORT内定它为“行车路线解释句型”。针对输入句与数据库之间关键特征对比方面，不但采用模糊匹配法，还加入了“相似词”对比方法。例如：在数据库中有“703路公汽”，但是用户也可能说“703路”，所以“703路公汽”这个关键词的特征和相似词“703路”都可以认为是成功匹配的关键词特征。所以在系统中，定制许多同本领域相关的相似词，用来加大对配对的适应性，最终达到目的。通过这样的关键词识别和模糊匹配，就可以快速而准确地确定整个语音串的内容。

四、用途

1、本装置可作为听障人出行时，与其他人交流的辅助设备。由于听障人与健全人之间的交流方式的不同，他们之间很难沟通，但是使用本装置后，听障人在出行时，携带本装置，在需要问路、询问时间等情况下，可以使用该装置的语音合成功能，将要问的问题，通过手写转换成语音输出，健全人听到后，对着该装置说出相应的回答，本装置再将语音回答转换成文字，在液晶屏上显示，这样听障人和健全人就能自如的交流了。

目前听障残疾人出行难的问题，一直受到社会各界的关注，该装置成功地解决了听障人与其他人的交流障碍，这样就使听障人走向社会、融入社会成为可能。也为构建和谐社会作出了积极的贡献。因此，本发明具有较大的社会效益。

2、本装置还可以用于手机短信的编辑，即使用装置中的语音识别功能，用户只需对着手机说出要发送的短信内容，系统识别语音后，将其转换为文字信息。这样既缩短了编辑短信的时间，又使那些不会熟练使用手机输入法的用户提供了方便、快捷的短信编辑方式。手机短信本身就具有极大的经济效益，本装置方便了短信的编辑，使那些不熟悉手机按键输入法的用户可以轻松自如的编辑短信，势必大大增加用户发送短信的数量。因此，本发明具有较大的经济效益。

Claims

1、一种文字语音互转装置，其特征在于：

由手写屏(1)、麦克风(2)、前置功率放大器(3)、模数转换器(4)、主控系统(5)、存储系统(6)、数模转换器(7)、后置功率放大器(8)、音频输出器(9)、电子显示屏(10)组成；

其中的主控系统(5)包括中央处理器(5A)、语音合成模块(5B)、语音识别模块(5C)；

其中的存储系统(6)包括存储器(6A)、语音合成模型库(6B)、语音识别模型库(6C)；

①手写屏(1)、前置功率放大器(3)、模数转换器(4)、主控系统(5)、数模转换器(7)、后置功率放大器(8)、音频输出器(9)依次连通，主控系统(5)和存储系统(6)相互连通，语音合成模块(5B)和语音合成模型库(6)相互调用，实现文字语音转换；

②麦克风(2)、前置功率放大器(3)、模数转换器(4)、主控系统(5)、电子显示屏(10)依次连通，主控系统(5)和存储系统(6)相互连通，语音识别模块(5C)和语音识别模型库(6C)相互调用，实现语音文字转换；

所述的语音合成模块(5B)是将输入的文字信息转换成对应的语音信息输出；

所述的语音识别模块(5C)是利用关键字识别与模糊匹配的方法将输入的语音信息转换成对应的文字信息输出；

所述的语音合成模型库(6B)是存放用于语音合成的语音音节波形编码、音律信息、匹配规则的库；

所述的语音识别模型库(6C)是一种能够自适应生成关键字语音特征的库，该库还存放用于语音识别的文本数据、关键字匹配规则、语义模糊匹配规则。

2、按权利要求1所述的一种文字语音互转装置，其特征在于：

语音合成模块(5B)的工作流程依次是输入文字(a)，语音合成模型库(6B)，波形编码匹配(b)，当匹配成功时则输出语音(c)；

波形编码匹配(b)，当匹配失败时则重新输入文字(a)。

3、按权利要求1所述的一种文字语音互转装置，其特征在于：

语音识别模块(5C)的工作流程依次是输入语音串(d)，提取特征矢量(e)，语音识别模型库(6C)，关键字匹配(f)，当匹配成功时则语义模糊匹配(g)，当匹配成功时则输出文字(h)；

关键字匹配(f)，当匹配失败时则重新输入语音串(d)；

语义模糊匹配(g)，当匹配失败时则重新输入语音串(d)。

4、按权利要求1所述的一种文字语音互转装置，其特征在于：

语音合成模型库(6B)的工作流程依次是文字匹配(I)，文本数据(j)，波形编码匹配规则(k)，波形编码数据(l)。

5、按权利要求1所述的一种文字语音互转装置，其特征在于：

语音识别模型库(6C)的工作流程依次是关键子识别规则(m)，关键字最优模型数据(n)，语义模糊匹配(o)，文本数据(p)。

6、按权利要求5所述的语音识别模型库(6C)，其特征在于：

关键字最优模型数据(n)建库的工作流程依次是：初始关键字语料(q)，当库中存在该语料时系统提示该关键字模型已存(t)；

当库中不存在该语料时，二元文法语音模型建模(s)，模型训练(u)，关键字最优模型数据(v)。