CN1968068A

CN1968068A - 网络电话调整语音速度的系统及其方法

Info

Publication number: CN1968068A
Application number: CN 200510125424
Authority: CN
Inventors: 吴命玠; 林兰心
Original assignee: Inventec Corp
Current assignee: Inventec Corp; Inventec Multimedia and Telecom Corp
Priority date: 2005-11-14
Filing date: 2005-11-14
Publication date: 2007-05-23

Abstract

一种网络电话调整语音速度的系统及其方法，当收话端从设定模块输入设定调整网络电话的语音播放的速度参数时，调整模块可依设定的速度参数调整暂存在内存中的语音数据，并由中央处理器进行编/译码运算，输出模块则是输出已依据速度参数调整过的语音信号，而发话端的提示模块则会显示收话端目前正启动调整语音速度模式，进而达到在对话时，可以适当的速度且清楚的语音进行沟通，且发话端也可获得提示。

Description

网络电话调整语音速度的系统及其方法

技术领域

本发明涉及一种网络电话调整语音速度的系统及其方法，特别涉及对实时的语音信号进行处理，让使用者可以依个人习惯决定收听语音速度的系统及其方法。

背景技术

传统上声音的传输方法，是先要建立起一条固有的电路，然后在这条电路上进行通话，缺点是传输资源被占用后，要等待其中一方断线，线路才可再被其它人使用。但利用网络电话(VoIP，Voice over Internet Protocol)技术，声音首先被数字化，然后将数字声音数据切割成很多小单位，各小单位再加上IP(Internet Protocol)后形成封包。

这些IP封包被传至IP数据网络上(IP-based data networks)后，可根据网络的使用情形，而选择适当的传输路径；在到达目的地后，各封包便再次合并且还原为最初的声音。利用这技术，声音的封包便可通过因特网传送到世界各地，而可以完全不使用传统的公用交换电话网络(PSTN，PublicSwitched Telephone Network)。

最初的VoIP技术相当粗糙，使用上也有相当的限制。例如，你不能直接使用普通的电话作VoIP通话，而被限定只能使用计算机作通讯设备。除此之外，声音的质量也不稳定，完全要看当时因特网的挤塞情况而定，但由于使用VoIP可以不须缴付长途电话费而能和世界各地通讯，使得利用这种技术的人愈来愈多。

到了1998年，推出了能整合电讯网络的交换器(Switch)，使VoIP技术正式步入了和传统的公用交换电话网络整合的阶段。利用VoIP技术，电讯商可以使用互联网作为长途电话的传输骨干，使长途电话的费用进一步下调。但也随着VoIP的技术愈来愈成熟，很多跨国公司已放弃传统的长途电话，而建立起公司内部的话音传输网络；另一方面，配合不同地区或国家的电讯开发政策，也造就了一些小型的电讯公司兴起，他们灵活地使用VoIP技术，为顾客提供廉价的通讯服务。

过去在打电话时，常因为外在噪音或通话对方的习惯速度太快而导致听不清楚的困扰，或者是由于语言的隔阂，而必须对方一直重复相同对话才能听的懂的窘境。特别是通过封包传输的声音常会因为频宽不足等原因，而有断断续续的情况发生。因此，如何达到调整对话接收速度，使声音更清楚明确地传达，听者容易聆听，特别是稍微放慢接收的速度，或者达到缩短原本对话中空白的时间，使双方在进行VoIP通话时能依个人喜好决定通话速度，让听者可以更清楚地聆听不同语言与速度的对话。

发明内容

鉴于以上的问题，本发明的主要目的在于提供一种网络电话调整语音速度的系统及其方法，藉由在网络电话所收到的语音信号进行语音调整后，再进行语音输出，使收话端的使用者可以获得较适当的对话效果，且发话端也可收到收话端调整语音速度的通知，而能依提示做适当的调整。

因此，为达上述目的，本发明所揭示的一种网络电话调整语音速度的系统，至少必须包含：设定模块，用于接收使用者设定语音速度调整的参数；传输模块，用于接收发话端所传来的经过压缩编码的语音数据封包，以及传送语音速度调整的提示信号到发话端；暂存内存，用于存储发话端所传来的语音信号；中央处理器，用于负责语音速度调整的运算处理；提示模块，用于根据提示信号进行提示；调整模块，用于将语音信号进行压缩及解压缩成声纹信号，并根据语音速度调整的参数，对各个单位的声纹信号进行调整；及输出模块，用于播放调整后的语音信号。

具体地说，一种网络电话调整语音速度的系统，应用于发话端及收话端，该系统具有：设定模块，用于接收使用者设定多个语音速度调整参数；传输模块，用于接收该发话端所传来经过压缩编码的多个语音数据封包并重组为语音信号，以及传送各该语音速度调整参数至该发话端，其中该语音信号为多段声纹信号所组成；暂存内存，用于暂存该语音信号；及调整模块，依据各该语音速度调整参数，用于进行各该声纹信号单位数据量的复制及删减。

根据所述的系统，其中该系统还包括提示模块，用于根据各该语音速度调整参数进行提示。

根据所述的系统，其中该系统还包括中央处理器，用于进行该语音信号的压缩编码，及各该语音数据封包的重组。

根据所述的系统，其中该系统还包括输出模块，用于播放复制或删减后的各该声纹信号。

根据所述的系统，其中各该语音速度调整参数包括调整功能启动、调快或调慢的设定以及调整的倍数。

依据本发明的目的且达到上述的优点，本发明的方法包含下列步骤：当语音调整功能被启动之后，首先，接收到使用者作调整语音播放的设定；接着，传送收话端启动语音调整功能的提示至发话端；然后，依据调整的参数可对收话端或者是发话端的暂存内存中的语音信号，对各个单位的声纹信号进行调整；最后，输出调整后的语音信号。

具体地说，本发明包括一种网络电话调整语音速度的方法，当收话端接收发话端传来的经压缩编码的多个语音数据封包，并重组为语音信号存储于暂存内存后，该方法包含下列步骤：接收使用者输入设定多个语音速度调整参数；读取该暂存内存的该语音信号并区分成多个声纹信号；及依据各该语音速度调整参数，对各该声纹信号的单位数据量进行调整。

根据所述的方法，其中各该语音速度调整参数包括调整功能启动、调快或调慢的设定以及调整的倍数。

根据所述的方法，其中该调整功能启动的参数传至发话端后，可使该发话端的提示模块进行提示。

根据所述的方法，其中该调整该语音信号的方式为依据调快或调慢的该设定，对各该声纹信号的单位数据量进行删减及复制。

根据所述的方法，其中该单位数据量为30ms。

有关本发明的特征与实作，现配合附图作最佳实施例详细说明如下。

附图说明

图1为本发明的系统结构图；

图2a为本发明正常播放的示意图；

图2b为本发明放慢播放的示意图；

图2c为本发明加快播放的示意图；及

图3为本发明收话端一实施例的方法流程图。

其中，附图标记说明如下：

110 暂存内存

120 设定模块

130 提示模块

140 传输模块

150 调整模块

160 中央处理器

170 输出模块

步骤310接收使用者作语音调整的播放设定

步骤320传送启动语音调整功能的提示至发话端

步骤330依据语音调整的速度参数复制不同数目的

声纹信号单位数据量

步骤340输出调整后的语音信号

具体实施方式

本发明将揭示一种网络电话(VoIP，Voice over Internet Protocol)调整语音速度的系统及其方法。在本发明的以下详细说明中，将描述多种特定的细节以便提供本发明的完整说明。然而，对本领域技术人员来说，并可以不需要使用这些特定细节便可以实施本发明，或者可以通过利用替代的组件或方法来实施本发明。在其它的状况下，并不特别详细地说明已知的方法、程序、部件、以及电路，以免不必要地混淆本发明的重点。

请参照图1，此为本发明的系统方框图，包含了以下组件：

暂存内存110，其为随机存取内存(RAM，Random Access Memory)，例如：动态随机存取内存(DRAM，Dynamic Random Access Memory)、EDO DRAM(Extend Data Out Dynamic Random Access Memory)、RDRAM(Rambus DRAM)、SDRAM(Synchronous Dynamic RAM)、VCMSDRAM(Virtual Channel Memory SDRAM)以及最近已成为市场主流的双倍数据速率(DDR，Double Date Rate)SDRAM等等，用于作为传输模块140所接收音讯串流数据的暂存。

传输模块140除了可接收发话端传入的语音封包外，也可以接收及传送收话端所设定的语音调整速度的提示。当语音数据被切割成多个封包传送出去时，在标头会被加入收话端的网络地址，以及用于进行语音数据重组的相关信息，以确保数据安全和数据分组交换正确无误。因此，VoIP服务需要使用的一个重要标准是信号传输协议(signaling protocol)，来创建网络上客户的软件和硬件之间的连接。对话的呼叫建立和控制的主要功能包括用户地址查找、地址转换、连接建立、服务特性磋商、呼叫终止和呼叫参与者的管理等。

VoIP标准的组织主要有ITU-T，因特网工程工作特别小组(IETF，TheInternet Engineering Task Force)和欧洲电信标准学会(EuropeanTelecommunications Standards Institute，ETSI)等。两个比较值得注意的可用于IP电话信号传输的标准是ITU的H.323系列标准和IETF的入会协议(Session Initiation Protocol，SIP)。该协议原来是为在因特网上召开多媒体会议开发的协议。H.323和SIP这两种协议代表解决相同问题的两种不同的解决方法。此外，还有两个信号传输协议被考虑为SIP结构的一部分。这两个协议是：会话说明协定(Session Description Protocol，SDP)和会话通告协定(Session Announcement Protocol，SAP)。

VolP的呼叫建立和控制大多建立在TCP基础上，而音频串流的传送则建立在UDP基础上，为保证传送的实时性，IETF增加了几个重要的协议：RSVP(Resource Reservation Protocol)：一般说来，在因特网上保留足够的频宽用于多媒体的传送是十分困难的，IETF定义了资源预留协议(RSVP，Resource Reservation Setup Protocol)。RSVP允许接收者申请特定数量的频宽用于进行数据传输，如此一来便能获得了QoS(Quality of Service)保证。

设定模块120，是用于接收使用者自键盘或是其它输入装置所作的输入设定，例如：使用者可从键盘中输入语音调整功能的启动，选择作语音调整加快或放慢的倍数，提示功能的启动，并将设定的参数传至中央处理器160，以进行下一步的调整工作。

提示模块130则是当收话端启动语音调整功能，且接收来自收话端所设定的提示信号时，可将语音调整功能启动的信息，于发话端显示，而显示方法可以是在屏幕中显示，或是以一特定灯光信号，或是以音效等各种方式来作为提示使用者语音调整功能启动的方式。

调整模块150则是当语音调整功能启动时，用于在收话端收到传输模块140所传来的语音信号，根据使用者所设定的语音调整速度的参数，复制不同数目的声纹信号单位数据量，例如以30ms作为一个单位，或者是发话者的麦克风收到使用者讲电话的模拟语音信号，转换成数字语音信号再根据收话端传来的语音调整速度参数，针对调整的倍数来复制多次语音信号，或者是本模块在将语音信号进行压缩编码时，可加入复制语音信号次数加入传送的封包中，当收话端收到封包进行重组时，可根据复制的次数来加以调整，使达到语音调整的目的。

中央处理器160，用于进行语音信号的编码，利用数字信号处理(DSP，Digital Signal Processing)技术，如声音编码技术(voice coding)及声音压缩技术(voice compression)，将声音信号编码成为数字的语音信号，经过压缩，再切割数据成封包(Packetization)，每个封包独立地在数据网络上传送。在接收端的部分则是将收到的封包重组(Packet Assembly)，去除封包格式(De-Paketization)及解压缩，并将数字的语音信号还原成模拟信号，使达成语音传递的功能。

当使用者要加快语音的拨放速度时，中央处理器160即将所收到的语音信号依据调整加快的倍数，当加快为2倍速度时，则选择在两个连续声纹信号中选择抛弃一个声纹信号，播放语音信号的数据量便减少一倍，因此整体的语音播放速度可加快。同样的，当使用者设定播放速度放慢为2倍速度时，则是将每个声纹信号皆复制一次，并缩短每句话的间的空白时间，必要时可延长整体的播放时间。

输出模块170在此是指VoIP上的扩大器，用于拨放数字语音信号。请参照图2a，此为正常播放速度的语音播放示意图，假设所收到的语音信号包含三句话：“您好、“我是ABC的史密斯“、“请问村上先生在吗“，每句话之间皆包含一段空白时间，当使用者选择放慢播放速度时，如图2b所示，调整模块150会根据使用者所设定语音调整速度参数，复制声纹信号后，因此每句话之间的间断时间将会缩短，甚至3句话整体的播放时间将比正常时间还来的长，由于发话端的提示模块130可以得知收话端正在启动语音调整功能，所以可以得知收话端的回答会比正常对话来的慢。同样地，当收话端的使用者选择加快播放速度时，如图2c所示，则根据加快的速度调整参数进行调整后，每句话的播放时间将变短，维持每句话开始的时间，则每句话之间的无声时间将加大。

请参照图3，此为本发明在收话端进行语音调整的方法流程图。使用者在VoIP的收话端启动语音调整功能后，首先，受话端的设定模块120便接收到使用者作语音调整的播放设定，调快或调慢，以及调整的速度参数(步骤310)；接着，传输模块140便将传送启动语音调整功能的提示至发话端(步骤320)，发话端的提示模块130可以信息或是提示灯光信号或声音来提示发话端的使用者。

传输模块140将接收下来的语音封包，重组成数字的语音信号先存于暂存内存110中，调整模块150再依据调整的速度参数，对暂存内存110中语音信号的各个声纹信号逐一进行调整(步骤330)。例如：当速度参数为加快2倍速度时，则选择在两个连续声纹信号中选择抛弃一个单位的声纹信号，播放语音信号的数据量便减少一倍，因此整体的语音播放速度可加快。最后，输出模块170便将调整后的数字的语音信号输出(步骤340)，收话端的使用者自传输模块140收到后，便可由输出模块170听到发话端调整后的声音。

通过本发明所揭示的方法，使用者可以很容易的在使用VoIP进行通话时，根据发话者的说话速度及个人的需求，调整所收到语音信号的播放速度，并可使发话端获得收话端启动语音调整功能的提示。

虽然本发明以前述的较佳实施例揭示如上，然其并非用于限定本发明，任何本领域的技术人员，在不脱离本发明的精神和范围内，当可作些许的更动与润饰，因此本发明的专利保护范围须视本说明书所附的权利要求的范围所界定的为准。

Claims

1.一种网络电话调整语音速度的系统，应用于发话端及收话端，该系统具有：

设定模块，用于接收使用者设定多个语音速度调整参数；

传输模块，用于接收该发话端所传来经过压缩编码的多个语音数据封包并重组为语音信号，以及传送各该语音速度调整参数至该发话端，其中该语音信号为多段声纹信号所组成；

暂存内存，用于暂存该语音信号；及

调整模块，依据各该语音速度调整参数，用于进行各该声纹信号单位数据量的复制及删减。

2.根据权利要求1所述的系统，其中该系统还包括提示模块，用于根据各该语音速度调整参数进行提示。

3.根据权利要求1所述的系统，其中该系统还包括中央处理器，用于进行该语音信号的压缩编码，及各该语音数据封包的重组。

4.根据权利要求1所述的系统，其中该系统还包括输出模块，用于播放复制或删减后的各该声纹信号。

5.根据权利要求1所述的系统，其中各该语音速度调整参数包括调整功能启动、调快或调慢的设定以及调整的倍数。

6.一种网络电话调整语音速度的方法，当收话端接收发话端传来的经压缩编码的多个语音数据封包，并重组为语音信号存储于暂存内存后，该方法包含下列步骤：

接收使用者输入设定多个语音速度调整参数；

读取该暂存内存的该语音信号并区分成多个声纹信号；及

依据各该语音速度调整参数，对各该声纹信号的单位数据量进行调整。

7.根据权利要求6所述的方法，其中各该语音速度调整参数包括调整功能启动、调快或调慢的设定以及调整的倍数。

8.根据权利要求7所述的方法，其中该调整功能启动的参数传至发话端后，可使该发话端的提示模块进行提示。

9.根据权利要求6所述的方法，其中该调整该语音信号的方式为依据调快或调慢的该设定，对各该声纹信号的单位数据量进行删减及复制。

10.根据权利要求9所述的方法，其中该单位数据量为30ms。