CN1617224A

CN1617224A - 文本的自然语音伴音装置及文本和自然语音自动同步方法

Info

Publication number: CN1617224A
Application number: CNA2004100513386A
Authority: CN
Inventors: 韦岗; 张军
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2004-09-06
Filing date: 2004-09-06
Publication date: 2005-05-18
Anticipated expiration: 2024-09-06
Also published as: CN1300762C

Abstract

本发明提供一种文本的自然语音伴音装置及文本和自然语音的自动同步方法，其特征在于：文本的自然语音伴音装置的键盘接口电路、计算机接口电路及液晶显示电路通过数据线和控制线与微处理器电路连接，完成相互间的通信与控制功能；存储器电路通过地址线、数据线和控制线与微处理器连接；语音播放电路、计时器电路通过数据线和控制线与微处理器连接；译码电路通过地址线与微处理器连接。文本和自然语音的自动同步方法是通过语音播放过程的程序流程步骤来完成。本发明可实现全自动的利用自然语音对文本进行同步伴音的功能，并可完全由机器在文本显示和语音播放的时刻自动实现两者的同步，无须人工参与，既保证了伴音质量，又大大提高了同步伴音效率和时间。

Description

文本的自然语音伴音装置及文本和自然语音自动同步方法

一、技术领域

本发明涉及一种电子语音装置，特别是一种可以用自然语音对所显示的文本进行自动同步伴音的电子装置，以及一种无需索引的文本和自然语音自动同步方法。

二、背景技术

阅读是人们获取信息、进行学习和娱乐的重要手段之一。传统的阅读主要是通过人类的视觉感官来进行，人们通过阅读书刊、报纸、杂志以及电子设备的显示屏幕等上面的文本来获得所需的信息。由于这种阅读方式只运用了一种感觉器官，因此长时间的阅读容易造成视觉上的疲劳，降低了阅读的效率。如果能在看文本的同时，又能听到文本的内容，则可以充分利用人们视觉感官和听觉感官，无疑能减少阅读的疲劳感，提高阅读的效率，使阅读的过程更具乐趣。

随着电子技术的发展，现有的许多电子装置都具备了为文本提供伴音的能力，如一些PDA、电子书阅读机等等，但这些装置在伴音过程中所采用的文本和语音同步显示和播放方法往往都显得比较粗糙，使用起来并不方便。根据所采用语音的不同，现有的电子装置为文本提供伴音的方法主要可以分为两类，一类是采用合成语音，即利用语音合成技术由机器产生与文本对应的语音。在这类方法中，由于语音是由机器根据文本产生的，因此在文本和语音的同步上不存在问题，但由机器产生的语音缺少自然性，没有了人类语言的抑扬顿挫和感情，大大降低了“听”的乐趣，故难以被人们广泛接受。另一类是采用自然语音，即在显示文本的时候播放录制好的真人语音。由于这种方法中播放的语音是由专人录制而成，因此流畅悦耳，富有感情，可以大大减少阅读的疲劳感，增加阅读的乐趣。但自然语音与文本的同步比较困难，通常需要专门建立一套索引的机制来记录文本和语音之间的对应关系，例如单独建立一个索引文件，或将索引信息与文本、语音一起合成一个同步的文件。这意味着除了文本和语音数据外，还需要一定的存储空间来存放它们之间索引信息。当文本和语音较长时，用于存储索引的空间将会变得很大，从而浪费了宝贵的存储资源。此外，由于目前索引信息多数需要用人工的方法进行制作，即用人工的方法找出并记录下语音与文本的同步点，效率低，速度慢，因此也难以推广使用。

三、发明内容

针对现有的电子装置在为文本提供同步伴音时存在的众多不足，本发明提供了一种自然语音伴音控制装置及文本和自然语音自动同步方法。利用本发明，只需要提供文本和对应的自然语音，即可由机器在文本显示和语音播放的时刻实现两者的同步，无须前期人工参与和另外建立索引信息。

本发明提供的伴音控制装置：由微处理器电路、键盘接口电路、计算机接口电路、液晶显示电路、存储器电路、语音播放电路、译码电路和计时电路共同构成，其中微处理器为整个系统的核心处理单元，主要完成以下功能：1、操作界面以及文本的显示功能；2、键盘输入的解码及进行相应处理的功能；3、与计算机通信及交互操作的功能；4、控制语音播放电路播放语音的功能；5、文本与语音伴音同步的功能；6、控制各模块之间同步协调工作的功能；其特征在于：所述键盘接口电路、计算机接口电路、液晶显示电路通过数据线B和控制线C与微处理器相连接，分别完成微处理器与键盘、计算机和液晶显示屏之间的通信和控制功能；所述存储器电路通过地址线A、数据线B和控制线C与微处理器相连，为微处理器提供大容量的片外存储空间；所述语音播放电路通过数据线B和控制线C与微处理器相连，完成播放微处理器输出的数字语音信号的功能；所述计时电路通过数据线B和控制线C与微处理器相连接，为微处理器提供定时信息；所述译码电路通过地址线A与微处理器相连，为各个外围芯片提供片选信号。

本发明通过语音播放电路，既可以单独显示文本，播放语音，也可以在显示文本的同时为文本提供同步伴音。

本发明的语音伴音装置具有联机、脱机两种工作方式，其中联机方式是指与计算机相连时的工作方式，此时主要是进行数据的载入；脱机方式为正常的工作方式，在此工作方式中，可以进行文本的显示、语音的播放，或文本和语音的同步显示和播放。开机上电后，该装置首先进入脱机工作方式，等待按键指令并检测联机状态，当接收到打开文本文件或语音文件的命令时，采用正常的方法在显示屏上显示文本或播放语音；当接收到显示文本并提供伴音的命令时，同步显示文本和播放语音；当检测到与计算机连接后，进入联机工作方式，进行数据的下载。

为了在伴音过程中有效地实现文本和自然语音的自动同步，本发明提供了一种无需索引的文本和自然语音自动同步方法，包括以下几个步骤：

步骤1：打开所选的文本文件和语音文件，在显示屏上适当位置开始显示文本，同时开始播放语音，在开始播放语音的同时，启动计时器进行计时；

步骤2：播放语音的过程中，采用活动语音检测技术检测出语音中的活动语音段和静音段，并结合文本的特点，粗略估计文本的当前位置；

步骤3：播放语音的过程中，每隔一个固定的时间间隔对所显示的文本进行调整，方法为：根据当前语音播放的位置和步骤2得到的文本当前位置粗估值，分别对语音和文本确定一个合理的搜索范围，采用语音关键词确认技术自动识别出语音中的关键词，根据活动语音、静音和关键词的位置进一步确定文本的当前位置，并据此更新文本在显示屏上的显示内容；

步骤4：语音播放完毕，或收到停止命令后，停止播放语音，停止并复位所设的计时器。

本发明的步骤2中文本当前位置的粗估，具体包含以下步骤：

步骤2.1：将语音分帧，采用活动语音检测技术，估计当前的语音帧是活动语音或者静音；

步骤2.2：刚开始播放语音时，第一段检测到的活动语音与文本的第一句话相对应；在播放过程中，根据上一次估计的文本当前位置，分析附近一定范围内可能出现活动语音或静音的地方；

步骤2.3：比较文本中估计的活动语音和静音的位置与语音中检测到的活动语音和静音的位置，粗略估计文本的当前位置。

本发明步骤3中文本当前位置的确定和文本的调整，可以分为以下步骤：

步骤3.1：根据当前语音播放的位置，确定一个合理的语音搜索范围，该搜索范围的大小应能保证包含足够充分的关键词；

步骤3.2：根据步骤2得到的文本当前位置粗估值，确定一个与语音搜索范围相对应的文本范围，将其起点前推一定位置，结束点后推一定位置，得到一个更大的文本搜索范围；

步骤3.3：找出文本搜索范围内出现的关键词，记录下其位置，并加载相应的语音模型；

步骤3.4：采用语音关键词确认技术，识别出语音搜索范围内的关键词；

步骤3.5：比较语音和文本在搜索范围内的活动语音、静音和关键词位置，找出一段与语音在活动语音、静音和关键词位置上最相近的文本，该段文本中与当前语音播放位置相对应的句子即为文本的当前位置；

步骤3.6：根据确定的文本当前位置，调整文本在显示屏上的位置。

本发明步骤3中所述关键词可以采用整词，也可以采用次词或一些特定的发音，如元音等。

本发明的步骤2和步骤3中文本当前位置的估计和确定可以利用过去和当前播放的语音来进行，或采用一种超前处理的模式，即利用过去的、当前的和未来的语音来进行，具体做法是：预先读入一段语音，识别出该段语音中的活动语音、静音以及关键词，然后再开始从头播放语音，在播放语音的过程中，超前读入新的语音数据并识别出该段语音中的活动语音、静音以及关键词，这样，在确定文本搜索范围时，就可以利用到未来的语音数据或处理结果。

为了避免识别错误的累积，本发明还提供了一种手动校正的功能，具体做法是：在播放过程中，如果发现文字的显示滞后或超前了，可以使用手动的方式调整在当前显示屏上显示的文字，使得当前播放的文字位于合适的位置。与文字的调整相对应，程序中对文本当前位置以及记录下的其他相关信息作出相应的调整。

与现有技术相比，本发明具有以下优点：1、本发明提供了一种完全自动的利用自然语音对文本进行同步伴音的方案，可以完全由机器在文本显示和语音播放的时刻自动实现两者的同步，无须前期人工参与，既保证了伴音的质量，又大大地提高了同步伴音的效率和时间。2、本发明无需预先建立文本和语音之间的索引信息，有效地节约了存储空间。3、利用本发明，可以方便地更换文本的语音伴音，更好地满足使用者的个人喜好和习惯。

四、附图说明

图1为本发明提供的可以用自然语音对所显示的文本进行自动同步伴音的电路原理图；

图2为本发明提供的无需索引的文本和自然语音伴音自动同步方法流程框图；

图3为本发明提供的无需索引的文本和自然语音伴音自动同步方法中步骤2的流程框图：

图4为本发明提供的无需索引的文本和自然语音伴音自动同步方法中步骤3的流程框图；

图5为本发明实施例的电路原理图；

图6为本发明实施例的主程序框图；

五、具体实施方式

本发明的一种具体的实施方式如下：

(1)硬件：本发明的各部分电路均采用集成IC芯片来实现(如图1和5所示)，其中所述的微处理器电路、键盘接口电路、计算机接口电路、液晶显示电路、存储器电路、语音播放电路和译码电路分别由微处理器芯片IC1、键盘接口芯片IC2、微机接口芯片IC3、LCD显示控制芯片IC4、存储芯片IC6、D/A芯片IC7和译码芯片IC5及它们的外围电路共同构成。所述IC1可以采用16位的DSP芯片TMS320C5409；IC2可采用74LS244：IC3可以采用74LS245；IC4可以采用Sumsung的K0713BT-01；IC5可以采用74LS138；IC6可以采用M29W400B；IC7可以采用320AC36。由于TMS320C5409内部已经包含有计时电路，因此可直接利用TMS320C5409的计时器来完成定时功能。

(2)软件：本发明的主程序流程框图如图6所示。当开机上电后，首先进行初始化工作，然后进入主程序循环。在主程序循环中，不断检测联机状态及按键输入。当检测到与计算机相连时，即进入联机状态，此时可以从计算机中下载文本和语音等数据，下载完毕后，与计算机断开连接并退出联机状态，回到正常的脱机工作状态中。在脱机工作状态中，默认是显示所存文件的目录，此时用户可以进行三种打开文件的操作，分别为显示一个文本文件、播放一个语音文件、以及显示文本并进行同步伴音。当用户选择显示文本文件或播放语音文件时，进行正常的显示和播放。当用户选择显示文本并进行同步伴音时，计算机将提示选择一个文本文件和一个语音文件，待用户选择好后，即进入文本和语音的同步显示和播放状态。

在文本和语音的同步显示和播放状态中，主程序首先打开所选的文本和语音本文件，并在显示屏上适当位置显示文本。与此同时，主程序设置两个中断，一个中断为语音播放缓冲区空中断，即缓冲区内的语音数据已播放完毕，需要添加新的语音数据时产生的中断；另一个中断为计时器中断，该中断每隔一定时间产生一次，用于定时调整文本的显示。设置语音播放缓冲区空中断的优先级高于定时器中断的优先级。完成上述设置后，主程序打开中断并开始播放语音。当发生语音播放缓冲区空中断时，进入语音播放缓冲区空中断服务程序。该中断服务程序的主要完成功能是将新的数据送至播放缓冲区，以及按步骤2提供的方法进行活动语音和静音的检测和文本的当前位置的粗估。当发生计时器中断时，进入计时器中断服务程序，该中断服务程序主要功能是按步骤3提供的方法进一步确定文本的当前位置，并相应地调整文本在屏幕上的显示位置。由于定时器中断的优先级低于语音播放缓冲区中断，因此可以被后者中断，从而保证了语音播放的连续性。在本实施例中，文本当前位置的估计只利用过去和当前播放的语音来进行，因此无需超前处理语音。

在语音播放缓冲区空中断服务程序中，首先从语音文件读入一段新的语音数据送至播放缓冲区，然后对输入的语音进行分帧处理，并采用活动语音检测技术来判断当前语音帧是活动语音或静音。全局内存中设置一个数组，用于保存语音中发生静音→活动语音或活动语音→静音的位置。设置一个全局变量，用于保存文本的当前位置。当检测到第一段活动语音时，文本当前位置初始化为第一句；之后每当检测到静音时，文本当前位置更新为紧跟着上一次估计的文本当前位置所指句子后的标点，如逗号或句号等可能出现停顿的地方，检测到活动语音时，文本当前位置更新为标点后新开始的句子。活动语音检测技术采用能量检测的方法，当多个连续帧的短时能量大于某个门限时，判断该段语音为活动语音，当多个连续帧的短时能量小于某个门限时，判断为静音。

在计时器中断服务程序中，首先将记录活动语音和静音位置信息的数组以及当前文本位置等全局变量复制到本地内存中，然后以上一次计时器中断时语音播放的位置为起点，当前语音播放位置为终点，设置语音搜索范围。以上一次计时器中断确定的文本位置前推若干句为起点，本次计时器中断时粗估的文本当前位置后推若干句为终点，确定文本搜索范围。由于在各种语言中，元音都具有数目少、发音稳定的特点，并且一般情况下每个完整的句子都会包含一个以上的元音，因此本实施例采用元音作为关键词。根据标准的发音表，如汉语中的拼音、英文中的音标等，找出文本在搜索范围内的元音。同时利用元音的能量和周期性特点，找出语音搜索范围内的元音，具体做法是计算语音的短时能量和归一化自相关函数，对短时能量和自相关函数中基音变化范围内的最大峰值设置一个门限，当连续多帧的短时能量和归一化自相关峰值大于门限时，该段语音即为一段元音。从预先建立的一个非特定人的元音语音模型库中加载文本搜索范围内出现的元音模型，将所切分到的语音与加载的元音模型相比较，找出与所切分的语音最相近的模型，其对应的元音即为识别的结果。根据情况的需要，还可以记录下与所切分语音较相近的几个模型对应的元音作为第二、三……候选。最后，将语音和文本中的活动语音、静音、关键词信息按先后次序分别列在两个表中，找出文本表中与语音表最匹配的部分，该部分对应的文本的最后一句即为文本的当前位置。在文本与语音的匹配中，本实施例采用了一种模糊匹配的方法，即对一段文本和一段语音，当它们有活动语音、静音或关键词位置相对应时，其得分增加一定的分数，其中语音关键词确认过程中得到的不同候选结果也可以参加与文本的匹配和打分，其分数值按候选的位置依次递减，最后得分最高的文本段即为与语音对应的文本。得到文本当前位置后，将其与发生计时器中断时保存的粗估文本当前位置比较，得到一个调整量，将当前全局变量中的粗估文本当前位置按该调整量作相应的校正，然后将对应的文本按校正后的粗估文本当前位置调整至显示屏的中央位置。

在文本和语音伴音的同步显示和播放的过程中，当用户发现文字滞后或超前了，可以通过上下键调整文本在屏幕上的位置。根据用户调整的方向和幅度，程序中直接对文本当前位置等变量进行修改，使同步过程恢复正常。

当语音播放完毕，或用户发出了停止播音的指令后，关闭语音播放缓冲区空中断和计时器中断，退出文本和语音伴音的同步显示和播放循环，返回主程序循环中。

本实施例中对文本当前位置的估计和确定也可以采用超前的处理模式，与正常处理模式的主要区别在于：在播放语音之前，先读入一段语音，识别出该段语音中的活动语音、静音以及关键词；在播放语音的过程中，超前读入新的语音数据并识别出该段语音中的活动语音、静音以及关键词；在文本显示的调整中，语音、文本的搜索范围包含过去、当前和未来的语音和文本数据，匹配时同时利用过去、当前和未来的活动语音、静音以和关键词位置来进行。

Claims

1.一种文本的自然语音伴音控制装置，由微处理器电路、健盘接口电路、计算机接口电路、液晶显示电路、存储器电路、语音播放电路、译码电路和计时电路共同构成，其中微处理器为整个系统的核心处理单元，主要完成以下功能：1、操作界面以及文本的显示功能；2、键盘输入的解码及进行相应处理的功能；3、与计算机通信及交互操作功能；4、控制语音播放电路播放语音功能；5、文本与伴音同步的功能；6、控制台模块之间同步协调工作的功能，其特征在于：所述键盘接口电路、计算机接口电路及液晶显示电路通过数据线(B)和控制线(C)与微处理器电路相连接，分别完成微处理器与键盘、计算机和液晶显示屏之间的通信和控制功能；所述存储器电路通过地址线(A)、数据线(B)和控制线(C)与微处理器相连接，为微处理器提供大容量的片外存储空间；所述语音播放电路通过数据线(B)和控制线(C)与微处理器相连接，完成播放微处理器输出的数字语音信号的功能；所述计时器电路通过数据线(B)和控制线(C)与微处理器相连接，为微处理器提供定时信息：所述译码电路通过地址线(A)与微处理器相连接，为各个外围芯片提供片选信号。

2.根据权利要求1所述的文本的自然语音伴音装置，其特征在于：通过的语音播放电路，该装置既可以单独显示文本，播放语音，也可以在显示文本的同时为文本提供同步伴音。

3.根据权利要求1所述的文本的自然语音伴音装置，其特征在于：该装置有联机、脱机两种工作方式，其中联机方式是指与计算机相连时的工作方式，此时主要是进行数据的载入；脱机方式为正常的工作方式，可以进行文本的显示、语音的播放，或文本和语音的同步显示和播放。

4.一种如权利所述的文本和自然语音的自动同步方法，其特征在于：文本和自然语音自动同步方法包括以下几个步骤：

步骤2：播放语音的过程中，采用活动语音检测出语音中的活动语音段和静音段，并结合文本的特点，粗略估计文本的当前位置；

5、根据权利要求4所述的文本和自然语音的自动同步方法，其特征在于：步骤2中文本当前位置的粗估，具体包括以下步骤：

步骤2.1将语音分帧，采用活动语音检测技术，估计当前的语音帧是活动语音或者静音；

步骤2.2刚开始播语音时，第一段检测到的活动语音与文本的第一句话相对应；在播放过程中，根据上一次估计的文本当前位置，分析附近一定范围内可能出现活动语间或静音的地方；

步骤2.3比较文本中估计的活动语音和静音的位置与语音中检测到的活动语音和静音的位置，粗略估计文本的当前位置。

6、根据权利要求4所述的文本和自然语音的自动同步方法，其特征在于：步骤3中文本当前位置的确定和文本的调整，可以分为以下步骤：

步骤3.1：根据当前语音播放的位置，确定一个合理的语音搜索范围的大小应能保证包含足够充分的关键词；

步骤3.2：根据步骤2得到的文本当前位置粗估值，确定一个与语音搜索范围相对应的文本范围，将其起点推前一定位置，结束点后推一定位置，得到一个更大的文本搜索范围；

步骤3.3：找出文本搜索范围内的关键词，记录下其位置，并加载相应的语音模型；

步骤3.5：比较语音和文本在搜索范围内的活动语音，静音和关键词位置，找出一段与语音在活动语音、静音和关键词位置上最相近的文本，该段文本中与当前语音播放位置相对应的句子即为文本的当前位置；

7.根据权利要求1所述的文本和自然语音的自动同步方法，其特征在于：步骤3中所述关键词可以采用整词，也可以采用次词工一些特定的发音，如元音等。

8.根据权利要求1所述的文本和自然语音的自动同步方法，其特征在于：所述步骤2和3中文本当前位置的估计和确定可以利用过去和当前播放的语音来进行，或采用一种超前处理的模式，即利用过去的、当前的和未来的语音来进行，具体做法是：预先读入一段语音，识别出该段语音中的活动语音、静音以及关键词，然后再一开始从头播放语音，在播放语音的过程中，超前读入新的语音数据并识别出该段语音中的活动语音、静音以及关键词，这样，在确定文本搜索范围时，就可以利用到未来的语音数据或处理结果。

9.根据权利要求1所述的文本的自然伴音控制装置，其特征在于：所述控制装置由微处理芯片IC1及分别通过数据线和控制线相连接的键盘接口芯片IC2、微扣接口芯片IC3、LCD控制芯片IC4、译码芯片IC5、存储芯片IC6、D/A芯片IC7及耳机或扬声器共同构成，其中微处理器芯片IC1通过地址线与译码芯片IC5相连接。