CN1165574A - 采用非对称话音压缩处理的很低比特率的话音信息系统 - Google Patents

采用非对称话音压缩处理的很低比特率的话音信息系统 Download PDF

Info

Publication number
CN1165574A
CN1165574A CN96191077A CN96191077A CN1165574A CN 1165574 A CN1165574 A CN 1165574A CN 96191077 A CN96191077 A CN 96191077A CN 96191077 A CN96191077 A CN 96191077A CN 1165574 A CN1165574 A CN 1165574A
Authority
CN
China
Prior art keywords
speech
group
solid plate
index
distance value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN96191077A
Other languages
English (en)
Other versions
CN1121682C (zh
Inventor
瓦尔特·李·戴维斯
黄建成
里奥·亚辛斯基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Solutions Inc
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of CN1165574A publication Critical patent/CN1165574A/zh
Application granted granted Critical
Publication of CN1121682C publication Critical patent/CN1121682C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B5/00Near-field transmission systems, e.g. inductive or capacitive transmission systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Devices For Executing Special Programs (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

一种处理话音消息来提供低比特率语音传输的装置和方法,该装置处理话音消息,来产生语音参数,这些语音参数被排列成包含一系列参数帧的二维参数矩阵(502)。采用某一预定的二维矩阵变换函数(414)对该二维参数矩阵(502)进行变换,来得到一个二维变换矩阵(506)。然后推导出代表着一组预定模板的模板与二维变换矩阵(506)之间距离的一些距离值。由标识着该组预定模板中的模板的索引来标识被推导出的距离值。比较被推导出的距离值,并选择且随后发射一个索引,该索引对应于该组预定模板中具有最短距离的一个模板。

Description

采用非对称话音压缩处理的很低比特率的话音信息系统
本发明通常涉及通信系统,特别是涉及一种话音压缩数字通信系统,该系统采用非对称话音压缩处理,具有非常低的数据传输速率。
通信系统,例如寻呼系统,为了有效地对其进行操作,过去不得不妥善处理消息长度、用户数目以及方便用户三者之间的关系。用户数目和消息长度受到限制,以避免信道过分拥挤,并且避免较长的传输时延。用户的方便程度直接受到信道容量、信道上的用户数目、系统特性以及消息类型的影响。在寻呼系统中,简单地提醒用户拨打某一预定的电话号码的音调单一的寻呼机提供了最高的信道容量,但是对用户来说却有些不方便。常规的模拟话音寻呼机允许用户接收更详细的消息,但是严重限制了某一给定信道上用户的数目。作为实时设备的模拟话音寻呼机还有不能为用户提供一种存储和重复接收到的消息的方法的缺点。带有数字和字符数字显示和存储的数字寻呼机的出现克服了老式寻呼机所带来的问题。这些数字寻呼机提高了寻呼信道的消息处理容量,并且为用户提供了一种存储消息以备今后再次查询的方法。
尽管带有数字或字符数字显示的数字寻呼机具有很多优点,然而一些用户仍然喜爱带有话音通告的寻呼机。在试图在一个有限容量的数字信道上提供这种业务的尝试中,已经尝试了各种数字话音压缩及合成技术,每一种方法有其成功之处,却也有其局限性。例如话音合成器技术,简单地用计算机所产生的声音来代替数字或字符数字显示,听起来根本不象最初人的声音。由双向无线电系统所采用的标准数字话音压缩方法,还不能提供所需要的、能够在寻呼信道上使用的压缩等级。采用当前的技术水平进行数字编码的话音消息,应该说是垄断了信道容量的很大一部分,以致于它们可能使该系统在商业上不成功。
因此,对于通信系统中信道的最佳利用,例如对于寻呼系统中的寻呼信道,需要的是一种对话音消息进行数字编码的装置,这种编码使最终数据是高度压缩的,并能够轻易地与在通信信道上发送的正常数据相混合。另外,需要一种对话音数据进行数字编码的通信系统,这种编码使通信接收设备,例如寻呼机中的处理过程简化到最简程度。
根据本发明的第一个实施例,提出了一种提供低比特率语音传输的处理语音消息的方法。该方法包括以下步骤:处理话音消息,以产生语音参数;把这些语音参数排列成二维参数矩阵,该矩阵包括一系列参数帧;采用某一预定二维矩阵变换函数来变换二维参数矩阵,目的是得到一个二维变换矩阵;推导出一组距离(distances)值,这组距离值代表了一组预定模板的模板与二维变换距阵之间的距离,由索引(indexes)来标识被推导出的距离值,这些索引标识着这组预定模板中的模板;对这组被推导出的距离值进行比较,并从中选择对应于这组预定模板中的这样一个模板的索引,该模板具有这组被导出的距离值中的一个最短距离;并且发射对应于这组预定模板中的模板的索引,该模板有着所选择的最短的距离值。
根据本发明的第一方面,这里提出了一种非对称话音压缩处理器,该处理器处理话音消息,以提供低比特率语音传输。这个非对称话音压缩处理器包括语音输入处理器、信号处理器和发射机。语音输入处理器处理话音消息,以产生数字化的语音数据。对信号处理器进行编程,目的是从数字化的语音数据产生语音参数;把语音参数排列成二维参数矩阵,该矩阵包括一系列参数帧;采用某一预定的二维参数矩阵变换函数来变换这个二维参数矩阵,目的是得到一个二维变换矩阵;推导出代表了一组预定模板中的模板与二维变换矩阵间的距离的距离值,用对应于这组预定模板中的模板的索引来标识这些距离值;并且比较被推导出的距离值,目的是从中选择一个索引,该索引对应于这组预定模板中的一个模板,该模板具有被推导出的距离值中一个最短的距离。发射机发射一个索引,该索引对应于这组模板中的模板,该模板有着所选择的最短距离。
根据本发明的第二实施例,这里提出一种为提供话音消息而处理低比特率语音传输的方法。该方法包括以下步骤:接收一个或多个索引,该索引对应于一组预定模板中的一个或多个模板,从一个或多个模板来产生一个语音参数数组,上述模板对应于所接收到的一个或多个索引,处理语音参数数组,以产生解压缩的数字语音数据,并且由解压缩的数字语音数据来产生一个话音消息。
根据本发明的第二方面,这里提出一种为提供话音消息而处理低比特率语音传输的方法。该通信设备包括接收机、信号处理器、语音合成器和转换器,接收机被用来接收对应于一组预定模板中的一个或多个模板的一个或多个索引;信号处理器被编程目的是从对应于所接收到的一个或多个索引的一个或多个模板中产生一个语音参数数组;语音合成器处理语音参数数组并产生解压缩的数字语音数据;转换器从解压缩的数字语音数据来产生话音消息。
根据本发明的第三个实施例,这里提出了一种为提供低比特率语音传输而处理话音数据的方法。该方法包括以下步骤:接收全部话音消息;处理全部话音消息,为的是从中推导出一个索引序列,该索引序列标识了一系列代表着一个语音参数矩阵的预定模板;以及发射该索引序列。
图1是根据本发明,采用数字话音压缩处理的通信系统的方框图。
图2是根据本发明,采用数字话音压缩处理的寻呼终端及其相关寻呼发射机的电气原理图。
图3是表示图2中的寻呼终端的运行的流程图。
图4是表示图2中的寻呼终端所采用的数字信号处理器的运行的流程图。
图5是图解说明图4中的数字信号处理器所采用的数字话音压缩处理的一部分的示意图。
图6是图解说明图4中的数字信号处理器所采用的数字话音压缩处理的细节的示意图。
图7是图解说明图4中的数字信号处理器所采用的另一种数字话音压缩处理的细节的示意图。
图8是图2中的寻呼终端中所采用的数字信号处理器的电原理图。
图9是图解说明根据本发明的压缩话音传输格式的示意图。
图10是根据本发明采用数字话音压缩处理的寻呼接收机的电原理图。
图11是图10中的寻呼接收机中所使用的数字信号处理器的电原理图。
图12是表示图10中寻呼接收机的运行的流程图。
图13是表示图10中寻呼接收机中所采用的数字话音数据解压缩步骤的流程图。
图14是图解说明图11中数字信号处理器所采用的数字话音解压缩处理的细节的示意图。
图15是图解说明采用某一预处理代码本(code book)的另一种数字话音解压缩处理的细节的示意图。
图16是图解说明采用某一分段代码本的另一种数字话音解压缩处理的细节的示意图。
图1表示一个通信系统,例如一个寻呼系统的方框图,根据本发明,该系统采用非对称话音压缩处理,利用了很低比特率的语音传输。本发明的非对称话音压缩处理使用了32比特BCH码字来代表一个很长的话音段,典型上是320到480毫秒,正如将在下文中描述的那样。采用常规电话技术,32比特应该代表一个0.5毫秒的语音段。数字话音压缩处理适用于寻呼以及其它非实时通信系统的非实时特性,这些系统提供了在很长的话音段上完成一个高计算密度处理所需的时间。在一个非实时通信中,有足够的时间接收全部话音消息,然后处理该消息。两分钟的延时在寻呼系统中是能够被容忍的,而在实时通信系统中,2秒的延时是难以接受的。数字话音压缩处理的非对称性简化了需要在便携式通信设备例如寻呼机中完成的处理,造成了寻呼应用和其它类似的非实时话音通信的处理空闲。在一个系统的固定部分来完成数字话音压缩处理的高计算密度部分,结果是,在系统的便携部分中只需要完成少量计算,正如下文所描述的那样。
尽管应该懂得,其它非实时通信系统也将得益于本发明,然而这里以举例方式,利用一个寻呼系统来描述本发明。把寻呼系统设计为向需要不同服务的各种用户提供服务。某些用户将需要数字消息服务,其它用户需要字符数字消息服务,并且还有另一些用户可能需要话音消息服务。在该寻呼系统中,呼叫者经由电话机102通过公共交换电话网络(PSTN)104与寻呼终端106进行通信,发出一个寻呼。寻呼终端106向寻呼者提示接收者的标识,并且发送一个消息。刚一接收到所需要的信息,寻呼终端106就回复一个提示,表示寻呼终端106已经接收到了该消息。寻呼终端106对信息进行编码,并把编码后的消息置于发射队列中。在适当的时候,由寻呼发射机108采用发射机108和发射天线110来发射该消息。应该懂得:在一个同播发射系统中,还可以采用覆盖了不同地理区域的多种多样的发射机。
从发射天线110发射的信号由接收天线112来侦收,并由图1所示的寻呼接收机这样的通信设备114来处理。向被寻呼者发出告警,并且消息被显示或被播出(annunciate),这取决于所采用的消息的类型。
图2中表示了根据本发明采用数字话音压缩处理的寻呼终端106和寻呼发射机108的电原理图。图2中所示的寻呼终端106是一种应该被用来服务于例如在商业无线电共用载波(RCC)系统中众多同时的用户的类型。寻呼终端106采用由控制器216控制的多个输入设备、信号处理设备以及输出设备。控制器216和组成寻呼终端106的各种设备间的通信由数字控制总线210来控制。数字化的话音和数据由输入时分复用高速通道212和输出时分复用高速通道218来处理。应该懂得:数字控制总线210、输入时分复用高速通道212以及输出时分复用高速通道218可以被扩展,目的是为寻呼终端106的扩展提供条件。
语音输入处理器205提供了PSTN104和寻呼终端106之间的接口。PSTN连接可以是多个每条线路被复用的多呼叫数字连接,如图2中所示的数字PSTN连接202,或者是多个每条线路上单呼叫的模拟PSTN连接208。
由一个数字电话接口204来服务于每个数字PSTN连接202。根据本发明,数字电话接口204为数字话音压缩处理的工作提供了所需的信号调整、同步、解复用、信令、监控以及稳压保护。数字电话接口204还可以提供数字化话音帧的临时存储,目的是方便时隙交换和时隙分配,上述时隙交换和时隙分配是把一条通路提供给输入时分复用高速通道212所需要的。正如下文所描述的那样,由控制器216来控制服务请求和监控响应。数字电话接口204和控制器216间的通信通过数字控制总线210。
由模拟电话接口206来服务于每个模拟PSTN连接208。根据本发明,模拟电话接口206为数字话音压缩处理的工作提供了所需的信号调整、信令、监控、模-数及数-模转换以及稳压保护。来自模-数转换器207的数字化话音消息的帧被临时地存储在模拟电话接口206中,目的是方便时隙交换和时隙分配,上述时隙交换和时隙分配是把一条通路提供给输入时分复用高速通路212所必需的。正如下文将描述的那样,由控制器216来控制服务请求和监控响应。模拟电话接口206和控制器216间的通信是通过数字控制总线210。
当检测到输入呼叫时,从模拟电话接口206或数字电话接口204向控制器216发送服务请求。控制器216从多个数字信号处理器中挑选一个数字信号处理器214。控制器216连接模拟电话接口206或数字电话接口204,经由输入时分复用高速通路212向所选择的数字信号处理器214请求服务。
为了实现完成寻呼过程所需要的所有信号处理操作,可以对数字信号处理器214进行编程。由数字信号处理器214实现的典型的信号处理功能包括根据本发明的数字话音压缩、双音多频(DTMF)译码和生成、调制解调器音调生成和译码以及预录音话音提示生成。为了完成上述一种或多种任务,可以对数字信号处理器214进行编程。在数字信号处理器214被编程以执行超过一项任务的情况下,控制器216在选定数字信号处理器214时,分配需要被完成的这个特定任务;或者,在数字信号处理器214被编程,仅完成单一任务的情况下,控制器216选择一个被编程的数字信号处理器214来实现在寻呼处理中完成下一步所需的特定操作。任何普通技术人员都熟悉完成双音多频(DTMF)译码和生成、调制解调器音调生成和译码以及预录音话音提示生成等操作的数字信号处理器214的操作。下面详细描述实现一个极低比特率非对称话音压缩处理器的操作的数字信号处理器214的操作。
在话音消息的情况下,以下面的方式来进行寻呼请求处理。连接到模拟电话接口206或数字电话接口204的数字信号处理器214向始发者提示一个话音消息。数字信号处理器214采用下面描述的过程来压缩接收到的话音消息。在控制器216的控制下,经由输出时分复用高速通道218,由压缩过程产生的压缩后数字话音消息被连接到寻呼协议编码器228。寻呼协议编码器228把数据编码成适当的寻呼协议。下文详细描述的一个这样的协议是邮政委员会标准咨询小组(POCSAG)协议。应该懂得,也可以采用其他信令协议。控制器216指定寻呼协议编码器228,经由输出时分复用高速通道218把编码后的数据存储在数据存储设备226中。在适当的时候,在控制器216的控制下,编码后的数据经由输出时分复用高速通道218被下载到发射机控制单元220中,并采用寻呼发射机108和发射天线110来发射编码后的数据。
在数字消息的情况下,除了由数字信号处理器214来完成的处理之外,以类似于话音消息寻呼的方式来继续寻呼请求的处理。数字信号处理器214向始发者提示一个DTMF消息。数字信号处理器214对接收到的DTMF信号进行译码并产生数字消息。以与由数字信号处理器214在话音消息情况下产生数字话音消息的同样方式来由数字信号处理器214处理所产生的数字消息。
除了由数字信号处理器214来完成的处理之外,字符数字寻呼处理以类似于话音消息的方式来进行。对数字信号处理器214进行编程,以译码并产生调制解调器音调(modem tone)。数字信号处理器214与始发者间的接口采用了一种标准的用户接口协议,例如寻呼入口终端(PET)协议。应该懂得,也可以采用其它通信协议。以与由数字信号处理器214在话音消息情况下产生数字话音消息的同样方式来由数字信号处理器214处理所产生的数字消息。
图3是描述当处理话音消息时,图2所示的寻呼终端106的操作的流程图。表示了两个进入流程图300的入口点。第一个入口点是针对与数字PSTN连接202有关的处理,第二个入口点是针对与模拟PSTN连接208有关的处理。在数字PSTN连接202的情况下,处理开始于步骤302,在该步骤中通过数字PSTN线路接收请求由输入数据流中的位图(bit pattern)来指示来自数字PSTN连接202的服务请求。数字电话接口204接收该服务请求并把它发送给控制器216。
在步骤304中,通过数字帧解复用,把从数字信道请求服务中接收到的信息从输入数据流中分离出来。从数字PSTN连接202中接收到的数字信号通常包括被多路复用为一个输入数据流的多个数字信道。数字信道请求服务被解复用,然后把数字化的语音数据临时存储,目的是便于时隙分配以及输入时分复用高速通道212上的数据复用。由控制器216来分配输入时分复用高速通道212上的数字化语音数据的一个时隙。相反,由数字信号处理器214产生的、用来传输给数字PSTN连接202的数字化语音数据被适当的格式化,用于传输和多路复用为输出的数据流。
与模拟PSTN连接208相类似,当从模拟PSTN线路上接收到一个请求时,处理开始于步骤306。由低频交流(AC)信号,或者由直流(DC)信号来信号化(signal)输入呼叫信号。模拟电话接口206接收该请求并把该请求发送给控制器216。
在步骤308中,模拟话音消息被转换为数字数据流。在其整个时序期间接收到的模拟信号被称为模拟话音消息。通过模-数转换器207,模拟信号被抽样,产生话音消息样本,并且被数字化,产生数字化的语音样本。模拟信号的样本被称为话音消息样本。数字化的话音样本被称为数字化的语音数据。在由控制器216所分配的时隙中,数字化语音数据被多路复用到输入时分复用高速通道212上。相反,在传输给模拟PSTN连接208之前由数字信号处理214所产生的输入时分复用高速通道212上的所有话音数据都受到数-模转换。
如图3所示,模拟PSTN连接208和数字PSTN连接202的处理路径在步骤310汇合,此时,一个数字信号处理器被指定用来处理输入呼叫。控制器216选择一个被编程的数字信号处理器214来完成数字话音压缩处理。被指定的数字信号处理器214在以前指定的时隙中,在输入时分复用高速通道212上读取数据。
在步骤312中,由数字信号处理器214读取的数据被存储为未压缩的语音数据以供处理。在步骤314中,对所存储的未经压缩的语音数据进行处理,下文将详细描述这一点。在步骤316,从处理步骤314得到的压缩后话音数据被适当地编码用于在一条寻呼信道上传输,正如下文所描述的那样。在步骤318,编码后的数据被存储在寻呼队列中,供后来的传输。在适当的时候,排序后的数据在步骤320中被送到发射机108,并在步骤322中被发射。
为了得到很高的压缩度,本发明的数字话音压缩处理分析了很长的语音数据段。图4是一个流程图,细化了步骤314,该图表示了图2的寻呼终端中所采用的数字信号处理器在处理数字化语音数据时的操作。在步骤404,分析了以前被存储在数字信号处理器214中作为未经压缩的话音数据的数字化语音数据402,并且增益被归一化。以音节为基础来调整数字语音消息的信号幅度,以充分利用系统的动态范围,并改善表观的信噪比性能。
在步骤406,把归一化的未经压缩的语音数据分组为一个预定数量的数字化语音样本,这些样本代表了短持续时间的语音段。代表短持续时间语音段的分组后语音样本在本文中被称为生成语音帧。这些组典型上包含20至30毫秒的语音数据。在步骤408中,在短持续时间语音段上完成语音分析,以产生语音参数。语音分析过程通常是一个线性预测编码(LPC)过程。LPC过程分析短持续时间语音段并计算很多参数。存在很多不同的已知的语音分析处理方法。任何技术人员都将清楚哪一种语音分析方法将最好地满足所设计的系统的要求。本文描述的数字话音压缩过程最好计算13个参数。前3个参数量化了语音段中的全部能量、特征音调值以及发声(voicing)信息。其余的10个参数被称作频谱参数,基本上代表了数字滤波器的系数。尽管应该懂得还可以采用其它的量化等级,然而在本发明的最佳实施例中,采用一个8比特数字单字(digital word)来量化每一个参数。
在步骤410,在步骤408中所计算的13个参数被堆积为二维参数矩阵或包括一系列参数帧的参数堆栈(stack)。这13个参数占据了矩阵中的一行,本文称之为语音参数帧。在步骤412,二维语音数据矩阵的段被分段成预定数目的参数帧的数组。每个数组通常具有8到32个帧。应该懂得,数组越大,下文所描述的计算步骤的计算密度将变得越大。数字信号处理器技术的现状以及当前寻呼市场所涉及的经济情况暗示着对于动态语音周期,8个语音参数帧的数组是最佳的。对于缺少动态语音的周期或静默期间可以采用具有16个或更多个语音参数帧的数组,然而出于描述的目的,我们将使用具有8个语音参数帧的数组代表很长的话音段,参见本说明的开始。举例来说,这个很长的话音段包含8个帧,每一帧包含20到30毫秒的语音数据或一个160到240毫秒的模拟话音消息段。
在步骤414中,采用预定二维矩阵变换函数的数学变换处理被应用于每个语音参数帧的数组。该变换过程把语音参数帧的数组变换为二维已变换数组。二维已变换数组是一个按重要性的次序来排列的参数数组。应该懂得,尽管还可以采用其它变换来产生已变换数组,然而所采用的数学处理最好是一个二维离散余弦变换函数。
在步骤416,把二维已变换数组与一组亦被称为话音模板的预定模板进行比较。这组预定模板在本文中被称为代码本。下面在本发明的另一个实施例中将显示,该代码本可包含两组或更多组模板。举例来说,带有一组模板的寻呼应用的一个典型代码本将具有512到1024个模板。矩阵量化函数将二维已变换数组与代码本中的每个模板进行比较,并计算代码本和每个模板间的加权距离。该加权距离在本文中也被称为距离值。挑选出与二维已变换数组有着最短距离的模板的索引420,用它来代表很长的语音段,正如将在下文中更加详细地描述的那样。由标识着该组预定模板的模板索引来标识被推导出的距离值。
在步骤416所选出的索引420被编码为一个预定的寻呼信道上的寻呼传输协议。正如下文更加详细地描述的那样,可以把两个索引编码成本发明中所采用的协议的一个码字。重复执行步骤408到416,直到所有很长的语音段已经被量化为一个索引。
图5表示图4中的数字信号处理器所采用的数字话音压缩过程。步骤410中所描述的二维语音数据矩阵被表示为二维参数矩阵502。在步骤408中所产生的每个语音参数帧对应于二维参数矩阵502中的一行。括弧504括起了8个构成一个语音参数数组的参数帧。在步骤414中所描述的预定二维矩阵变换函数把语音参数数组变换为二维已变换数组506。二维已变换数组506被标记,以图解说明如何根据重要性的次序来排列已变换数据,把最重要的数据存储在二维已变换数组506的左上角,并且把最不重要的数据存储在二维已变换数组506的右下角。
图6是图解说明在步骤416中为矩阵量化而执行的过程的示意图。二维已变换数组506被表示为具有用ai,j来代表的参照标记,这里“a”代表二维已变换数组,下脚标“i”代表数组的行,下脚标“ j”代表数组的列。代码本604被表示为具有多个页“k”的一个数组“b”,这里从k=0到k=n,对页进行编号。代码本604的每一页是代表一个话音模板的二维数组。用b(k)i,j来表示代码本604的单元(cells),这里,“b(k)”代表代码本和页,下脚标“i”代表页b(k)上数组的行,并且下脚注“j”代表页b(k)上数组的列。
在步骤416中所进行的距离计算是这样一个过程:从二维已变换数组506中的相应单元的一个值中减去代码本604中每一页b(k)的模板里的一个单元中的值,对其结果进行平方,把平方后的结果乘以一个加权值,该加权值处于某一预定加权数组606的相应单元中,并且重复这个过程,直到在三个数组的每个单元上已经完成了该过程。二维已变换数组506和模板页b(k)间的距离是前面计算的加权平方之和。这个统计距离被存储在距离数组610中,(dk)在位置“k”,对应于页号b(k)或该模板的索引。
上面所描述的距离计算可以被表示为下面的公式:
dk=∑i,jwi,j(ai,j-b(k)i,j)2这里:
dk等于二维已变换数组506和模板页b(k)间的距离,
wi,j等于一个预定加权数组606的单元i,j中的加权值,
ai,j等于二维已变换数组506的单元i,j中的值,并且
b(k)i,j等于代码本604的单元i,j中的值。
在已经计算了二维已变换数组506和代码本604中每一页b(k)的所有模板之间的距离以后,在距离数组610中寻找具有最短距离的单元。对应于代码本604中页b(k)的具有最短距离的单元的索引被存储在索引数组612中。在本发明中,索引是个10比特码字,代表1024页中的一页,或者代表组成代码本604b(k)的模板,并且代表由括弧504括起来的语音参数数组,该数组代表上面所描述的一个很长的话音段。通过采用一系列这些指向存储在通信设备114的代码本中的复制模板的索引,实际上能够复制原始的声音消息,而不需要繁重的处理,正如下文中所描述的那样。
数字信号处理和语音压缩方面的技术人员熟知离散余弦变换过程。代码本的产生发展了训练过程,并且这种处理也是技术人员非常了解的。用一种涉及一系列试验性加权数组和收听试验的经验性过程来产生加权数组。
图7表示了本发明的一个替代的实施例。这里,已经把二维已变换数组506分成尺寸不等的两段-段I701和段II702,尽管如此,却应该懂得,在一定条件下,两段的尺寸也可以是相同的。较小的一段,段I701代表更重要的数据,而较大的一段,段II702代表不太重要的数据。代码本604被分为两个相应的段,标识为模板组I703和模板组II704。以类似方式,模板组II704代表不太重要的数据,并且与模板组I703相比,具有较少的模板数目。加权数组602同样被分为段I705和段II706。采用加权数组计算608和预定的加权数组606段I705来计算二维已变换数组506的段I705与代码本604的模板组I703中的所有模板间的距离,正如上文所描述的那样。这些距离被存储在距离数组710的第一列中。以类似的方式来计算二维已变换数组506的段II702与代码本604的模板组II704的所有模板间的距离,并把这些距离存储在距离数组710的第二列中,正如上文所描述的那样。当已经计算出所有距离值时,在距离数组710的列I中寻找一个索引,该索引代表与二维已变换数组506的段I701有着最短距离的代码本604的模板组I703中的模板。同样,在距离数组710的列II中寻找一个索引,该索引代表与二维已变换数组506的段II702有着最短距离代码本604的模板组II704中的模板。来自列I和列II的索引构成了一个代表很长话音段的码字,正如上文所描述的那样,并且被存储在索引数组712中。二维已变换数组506的段II702在本文中还被称为第二组预定模板。在二维已变换数组506的分段加长了码字的同时,这种分段也改善了话音质量并减轻了计算工作。应该懂得,进一步地分段将进一步提高话音质量并进一步缩短计算时间,然而这样做是以需要更多的数据为代价。
在本发明的另一个实施例中,可以提供多于一个代码本604,以更好地代表不同的讲话者。例如,可以用一个代码本来代表女性讲话者的声音,并且用第二个代码本来代表男性讲话者的声音。应该懂得,还可以提供附加的代码本来反映语言的差别,例如西班牙语、日语等。当采用多种代码本时,可以使用不同的PSTN电话访问号码(telephone access numbers)来区分不同的语言。每一个专用的PSTN地址号与PSTN连接组有关,并且每个PSTN连接组对应于特定的语言和相应的代码本。当不使用专用的PSTN地址号时,在输入话音消息之前,可以通过输入某一预定代码例如DTMF数字来提示用户提供信息,每个DTMF数字对应于一种特定的语言和相应的代码本。一旦所用的PSTN线路或所接收到的DTMF数字识别了始发者的语言,数字信号处理器214从对应于一组预定语言的一组预定代码本中选择一个对应于该预定语言的预定代码本,预定代码本存储在数字信号处理器214中。此后,能够以所识别的语言给出所有声音提示。语音输入处理器205接收这个表明语种的信息并把该信息传送到适当的数字信号处理器214。换句话说,数字信号处理器214能够分析数字语音数据,来判断语种或方言,并选择合适的代码本。
使用代码本标识符(code book identifiers)来标识被用来压缩话音消息的代码本。代码本标识符与索引序列一起被编码,并被发送到通信设备114,正如下文描述的那样,传送代码本标识的另一种方法是把一个代表着代码本的报头(header)加到包含索引数据的消息中。
在本发明的另一个实施例中,在步骤412中被分为语音参数数组的语音参数的数目不是如上文所描述的那样固定的,而是代表了对应于二维参数矩阵的一个数目不定的参数帧。如上所述,对于动态语音周期而言,一个具有8个语音参数帧的数组是最佳的;对于缺乏动态语音的周期或静默期间,一个具有16或更多的语音参数帧的数组应该被认为是最佳的。在本实施例中,进行二维语音数据矩阵的分析,并用它来确定帧的数目,这些帧将组成由括弧504括起来的语音参数数组。在选择了其它数目的帧的周期中,可以增加具有合适的模板的补充代码本供使用。用被发射到通信设备114的数据来对所选择的帧的数目进行编码。
图8表示图2所示的寻呼终端106中所采用的数字信号处理器214的电原理图。采用了处理器804,例如几个标准的市场上可购得的数字信号处理器ICs之一,这样的处理器是被专门设计用来完成与数字信号处理有关的计算。可以从几个不同的厂家得到数字信号处理器ICs,例如由Motorola公司制造的DSP56100。处理器804通过处理器地址和数据总线808连接到ROM806、RAM810、数字输入端口812、数字输出端口814以及控制总线端口816。ROM806存储处理器804完成采用的消息的类型以及控制器216的控制接口所需要的信号处理操作所采用的指令。ROM806中包含被用来执行与压缩话音消息有关的操作的指令。RAM810中临时存储了数据和程序变量、距离数组610、索引数组612、输入话音数据缓冲区和输出话音数据缓冲区。数字输入端口812在数据输入函数和数据输出函数的控制下,提供了处理器804和输入时分复用高速通道212间的接口。数字输出端口在数据输出函数的控制下,提供了处理器804和输出时分复用高速通道218间的接口。控制总线端口816提供了处理器804和数字控制总线210间的接口。时钟802为处理器804产生了一个定时信号。
举例来说,ROM806中包含以下程序:控制器接口操作例程,数据输入操作例程,增益归一化操作例程,组帧操作例程,短期预测操作例程,参数堆积操作例程,二维分段操作例程,二维变换操作例程,矩阵量化操作例程,数据输出操作例程,一个或多个代码本,以及矩阵加权数组,正如上面所描述的那样。RAM810提供了程序变量、输入话音缓冲区和输出话音缓冲区的临时存储。
图9表示了一个典型的POCSAG信令格式中所采用的POCSAG帧900,如上所述,POCSAG信令格式适用于对两个10比特索引进行编码。下面画出的表I以举例的方式描述了根据本发明被用来输送数字压缩话音的每个比特的分配。每个POCSAG帧900具有22个用来输送信息的比特,其中:两个10比特代码字以及2个功能比特。每个10比特代码字能够确定多达1024个不同可能的代码本索引之一。如下面表I所示,第1功能比特是一个段尺寸标识符,被用来定义被压缩的语音段的长短,功能比特1指示是否8个或16个语音参数帧在步骤412中被分成语音参数数组。第2个功能比特是代码本标识符,被用来标识压缩话音消息所用的代码本。其余的比特是校验比特,被用于检错与纠错,正如技术上众所周知的那样。
通过下面的例子来说明本发明的优点,POCSAG帧900以1200比特/秒(bps)的速率传输,整个传输时间是26.7毫秒(ms),如果以2400bps的速率传输,该时间就缩短为13.3ms。在本发明的一个特定的实施例中,POCSAG帧900包括索引数组612的两个索引,索引数组612代表两个240ms的语音段。这样,根据本发明的这个特定实施例,在13.3ms中可以40比1的时间压缩率来传输480ms的语音。还可以计算这个例子中的数据压缩率。常规电话技术以64千比特/秒的速率对语音进行编码。在这个速率下,480ms的语音应该需要30720比特。可以采用本发明以32比持来发射同样的480ms语音,产生一个960比1的数据压缩率。与常规的电话技术的比特率相比,最终的数据适合于很低比特率的语音传输。应该懂得,前面所描述的压缩过程中所采用的参数可以改变,并将导致不同的压缩率和不同的语音质量。
    位     功    能
  1 位1=0,地址帧;位1=1,数据帧
  2~11 第一个10位数据字,代码本索引
  12~21 第二个10位数据字,代码本索引
  22 功能位=0,每个数组8个话音帧功能位=1,每个数组16个话音帧
  23 功能位=0,代码本1功能位=1,代码本2
  24~31 9位校验字
  32 帧校验字
                            表I
图10是通信设备114,例如一个寻呼接收机的电原理图。由接收天线112来侦收从发射天线110发射的信号。接收天线112被连接到接收机1004。接收机1004处理由接收天线112接收的信号,并产生一个接收机输出信号1016,信号1016是所发射的已编码数据的复制品。用预定的信令协议,例如POCSAG协议来对已编码数据进行编码。数字信号处理器1008处理接收机输出信号1016并产生一个解压缩的数字语音数据1018,正如下文将描述的那样。一个数-模转换器将解压缩的数字语音数据1018转换为模拟信号,由音频放大器1012放大并由扬声器1014播出。
数字信号处理器1008还提供了对通信设备114的各种功能的基本控制。数字信号处理器1008经过控制总线1020与电池节电器开关1006、代码存储器1022、用户接口1024以及消息存储器1026相连。代码存储器1022存储唯一的标识信息或地址信息,这些信息是控制器实现选择呼叫功能所需要的。用户接口1024为用户提供了指示消息接收的音频、视频或机械信号,并且用户接口还可以包括一个显示屏和按钮,供用户输入控制该接收机的命令。消息存储器1026提供了一个地方,用来存储消息以备将来再次查询,或者允许用户重复该消息。电池节电器开关1006提供了一种在系统正与其它寻呼机通信或没有发射的周期内,有选择地关断对接收机的电源供给的手段,从而以普通技术人员所熟知的方式降低了电源消耗并延长了电池寿命。
图11表示通信设备114中所采用的数字信号处理器1008的电原理图。处理器1104类似于图8所示的处理器804。然而因为在对数字话音消息解压缩时所完成的计算量大大低于压缩处理期间所完成的计算量,并且耗电量在便携式接收机中是至关重要的,所以处理器1104可以是一个较慢的低功耗的型式。处理器1104通过处理器地址和数据总线1110被连接到ROM1106、RAM1108、数字输入端口1112、数字输出端口1114以及控制总线端口1116。ROM1106存储处理器1104所用的指令,处理器1104需要解压缩消息并与控制端口1116接口,来实现信号处理功能。ROM1106中包含执行与压缩话音消息有关的操作所需的指令。RAM1108中临时存储数据和程序变量。在数据输入函数的控制下,数字输入端口1112提供了处理器1104和接收机1004间的接口。在数据输出函数的控制下,数字输出端口1114提供了处理器1104和数-模转换器间的接口。控制总线端口1116提供了处理器1104和控制总线1020间的接口。时钟1102为处理器1104产生一个定时信号。
举例来说,ROM1106包含下列程序:接收机控制操作例程、用户接口操作例程、数据输入操作例程、POCSAG译码操作例程、代码存储器接口操作例程、地址比较操作例程、去量化操作例程、二维逆变换操作例程、消息存储器接口操作例程、语音合成器操作例程、输出控制操作例程以及一个或多个代码本,正如上面描述的那样。
图12是描述通信设备114的运行的流程图。在步骤1202中,数字信号处理器1008向电池节电器开关1006发出一个给接收机1004供电的命令。数字信号处理器1008监视接收机输出信号1016中的一个位图,该位图表示寻呼终端正在发射一个用POCSAG报头调制的信号。
在步骤1204中,就POCSAG报头的出现作出判断。如果检测不到报头,那么数字信号处理器1008就向电池节电器开关1006发出一个命令,在一个预定的时间长度内禁止向接收机供电。在该预定的时间长度之后,在步骤1202,再重复地监视报头,正如技术上众所周知的那样。在步骤1206,如果检测到POCSAG报头,那么数字信号处理器1008将与接收机输出信号1016同步。
实现了同步时,数字信号处理器1008可以向电池节电器开关1006发出一个命令,停止向接收机供电,直到指定给通信设备114的帧是所期望的。在指定帧处,数字信号处理器1008向电池节电器开关1006发出一个向接收机1004供电的命令。在步骤1208,该数字信号处理器1008监视接收机输出信号1016中与指定给通信设备114的地址匹配的一个地址。如果找不到匹配地址,那么数字信号处理器1008就向电池节电器开关1006发出一个命令,禁止向接收机供电,直到同步代码字的下一次发射或下一个指定帧,在此之后,重复步骤1202。如果找到了匹配地址,那么在步骤1210,为了接收而保持供电,并且数据被接收到。
在步骤1212中,完成对在步骤1210中接收到的数据进行纠错,以提高再生话音的质量。在纠错过程中,采用了POCSAG帧900中所示的9个校验位。POCSAG纠错技术是技术人员众所周知的。在步骤1214,存储纠错后的数据。所存储的数据在步骤1216中处理,数字话音数据的处理是一个下面描述的解压缩过程。
在步骤1218,数字信号处理器1008在消息存储器1026中存储那些作为一个或多个索引被接收的解压缩数据,并向用户接口发送一个提醒用户的命令。在步骤1220,用户输入一命令,显示出(play out)该消息。在步骤1222中,数字信号处理器1008通过把存储在消息存储器中的解压缩话音数据传递给数-模转换器1010来作出响应。数-模转换器1010把解压缩的数字话音数据1018转换为模拟信号,该模拟信号由音频放大器1012放大,并由扬声器1014播出。
图13是表示数字话音解压缩过程的流程图。在步骤1304中,寻呼协议译码器接收用索引系列来编码的数据,这些索引系列对应于代表数字语音消息的一组模板中的一个或多个模板。从接收到的POCSAG编码数据1302中抽取索引,并存储它们。在步骤1306中,采用所存储的索引,从存储在数字信号处理器1008ROM中的代码本中找出相应的模板。
在步骤1308中,采用一个预定的二维逆矩阵变换函数在代码本中的模板上进行二维逆变换,该模板是由从所接收到的POCSAG编码数据中抽取的索引后的索引来指出的。二维逆变换产生一个代表着原始语音参数的LPC语音参数数组。所采用的预定的二维逆变换过程最好是一个二维离散余弦逆变换过程,尽管如此,应该懂得,也可以采用其它的逆变换来产生LPC语音参数数组。
在步骤1310中,LPC参数被用来产生语音数据1312。恢复后的消息数据被存储在用于数-模变换的RAM1108中,并根据用户的请求来播出。
图14是图解说明图13所示的话音压缩处理步骤的示意图。在步骤1304中接收和存储的索引被存储在一个索引数组1402中。索引数组1402中的每个索引指向代码本604中的一页。代码本604由一组完全相同的预定模板的复制组成,这组预定模板复制了被用于压缩处理的模板。存储在索引数组1402中的索引按照它们被接收时的次序,一次被挑选一个。在由所选择的索引指向的代码本中的每一页上,采用一个预定的逆矩阵函数,进行二维逆变换1308。二维逆变换1308产生语音参数1408的二维数组。这些参数是LPC语音参数,在步骤1310中由语音数据合成器来利用,产生语音数据1312。预定的逆矩阵函数最好是一个二维离散反余弦函数。
在ROM1106中可以存储对应于一个或多个预定语言的一个或多个代码本。数字信号处理器1008将根据标识符来选择合适的代码本,上述标识符是由在接收机输出信号1016中接收到的数据来编码的。
在图15所示的本发明的一个替代的实施例中,通过预处理存储在代码本604中的模板来简化接收过程中所需要的数字信号处理。代码本604中的模板实际上与LPC参数数组的尺寸相同,LPC参数是从模板上所完成的二维变换中得出的。因为最终的LPC参数数组实际上与原始模板的尺寸相同,所以用包含LPC参数数组的代码本1504来代替包含模板的代码本604。这样做,在发展期间只需进行一次二维逆变换,并且在处理每个话音消息段时,无需重复进行二维逆变换。通过简单地拷贝代码本1504的一页来产生二维语音参数数组1408。
图16是图解说明与图7所示的替代实施例有关的分段话音解压缩处理的步骤。索引数组1602具有为每个分段页所存储的两个索引。第一个索引选择了对应于压缩过程中所压缩的第一段的模板组I703中的一个模板。第二个索引选择了对应于压缩过程中所压缩的第二段的模板组II704中的一个模板。由来自第一个所选择的页中的模板组I703中的一个模板所代表的段I与由来自第二个所选择的页中的模板组II704中的一个模板所代表的段II相组合,形成一个包括段I1609和段II1608的二维变换数组。进行二维逆变换1306来产生二维语音参数数组1408。
综上所述,本发明对话音消息进行数字编码采用了这种方式:最终数据是高度压缩的,并可以轻易地与在寻呼信道或其它类似的通信信道上发射的正常数据相混合。另外,对话音消息进行数字编码采用了使寻呼机或类似的便携式设备中的处理大大简化这样一种方式。在已经图示并描述了本发明的特定实施例的同时,应该懂得,对于技术人员来说,进一步的修改和完善将会出现。

Claims (62)

1.一种处理话音消息来提供低比特率语音传输的方法,上述方法包括以下步骤:
处理话音消息,产生语音参数;
把语音参数排列成一个包含了一系列参数帧的二维参数矩阵;
采用某一预定二维矩阵变换函数对二维参数矩阵进行变换,以得到一个二维变换矩阵;
推导出一组距离值,这组距离值代表一组预定模板的模板与二维变换矩阵间的距离,由标识着这组预定模板中的模板的索引来标识被推导出的这组距离值;
比较推导出的这组距离值并从这组距离值中选择一个索引,该索引对应于这组预定模板中的一个模板,该模板具有推导出的这组距离值中一个最短的距离值;以及
发射对应于具有所选择的最短距离的这组预定模板中的模板的索引。
2.根据权利要求1的方法,其特征是:话音消息是一个模拟话音消息,并且其特征是,上述处理话音消息的步骤包括以下步骤:
抽取话音消息来产生话音消息样本;以及
数字化话音消息样本,来产生数字化的语音样本。
3.根据权利要求1的方法,其特征是:话音消息被数字化为数字化的语音样本,并且其特征是:上述处理话音消息的步骤包括以下步骤:
产生代表某一预定数目的数字化语音样本的语音帧;以及
在语音帧上进行语音分析,推导出语音参数。
4.根据权利要求1的方法,其特征是:预定的二维矩阵变换函数是二维离散余弦变换函数。
5.根据权利要求1的方法,还包括一个对索引进行编码的步骤,该索引对应于在一个预定的传输信令协议中所选择的最短距离。
6.根据权利要求1的方法,其特征是:上述处理步骤还包括产生一个代表话音消息的语音参数的二维语音数据矩阵的步骤,并且其特征是:该参数帧序列包括二维语音数据矩阵的一部分。
7.根据权利要求6的方法,其特征是:这部分二维语音数据矩阵包括一个对应于二维参数矩阵的预定数目的参数帧。
8.根据权利要求6的方法,其特征是:这部分二维语音数据矩阵包括一个对应于二维参数矩阵的数目不定的参数帧。
9.根据权利要求6的方法,其特征是:上述方法还包括把一系列索引存储在索引数组中的步骤,其特征是:一个索引对应于一个具有最短距离的模板,该模板最好代表这部分二维语音数据矩阵。
10.根据权利要求9的方法,还包括以一个预定的传输信令协议对索引数组进行编码的步骤。
11.根据权利要求1的方法,其特征是:上述推导步骤包括采用[公式]dk=∑i,j(ai,j-b(k)i,j)2计算距离值的步骤,这里,
dk代表一组预定模板的一个模板与二维变换矩阵的距离,
(ai,j-b(k)i,j)代表该组预定模板的每个模板的相应单元与二维变换矩阵间的差,并且
wi,j代表某一预定加权数组的一个相应的单元。
12.根据权利要求1的方法,其特征是:这组预定模板包括第一组预定模板和至少应有的第二组预定模板,并且其特征是:上述推导距离值的步骤推导出第一个距离值,该距离值代表第一组预定模板中的每一个模板与二维变换矩阵的第一部分间的距离,由与第一组预定模板中的每个模板相对应的第一索引来标识上述第一个距离值,并且
进一步推导出至少应有的第二距离值,该距离值代表至少应有的第二组预定模板中的每个模板与至少应有的第二部分二维变换矩阵间的距离值,由至少应有的第二索引来标识该至少应有的第二个距离值,上述第二索引对应于至少应有的第二组预定模板中的每个模板,并且其特征是:上述推导一组距离值的步骤是:
推导出第一组预定模板的第一组第一距离值,并且
进一步推导出至少应有的第二组预定模板的至少应有的第二组至少应有的第二距离值,并且其特征是:上述比较步骤将推导出的第一组第一距离值进行比较,并从中挑选出一个第一距离值,该距离值有着第一组至少应有的第一距离值中的最短距离,并且
进一步比较推导出的至少应有的第二组至少应有的第二距离值,从中选择一个至少应有的第二距离值,对于至少应有的第二距离值中至少应有的第一组值来说,该距离值是最短的,并且上述发射步骤
发射对应于所选择的第一距离值的第一个索引,并且还发射对应于所选择的至少应有的第二距离值的一个至少应有的第二索引。
13.根据权利要求1的方法,其特征是:第二组预定模板比第一组预定模板所包含的模板数量少。
14.根据权利要求1的方法,其特征是:这组预定模板代表一个代码本,并且其特征在于上述方法还包括以下步骤:
分析所产生的语音参数,以确定话音消息特征;
对应于所确定的话音消息特征,选择一组代码本中的一个预定代码本;以及
进一步发射一个标识着所选择的预定代码本的代码本标识符。
15.根据权利要求14的方法,还包括对索引和代码本标识符进行编码的步骤,该代码本标识符标识着在预定传输信令协议中所选择的预定代码本。
16.根据权利要求1的方法,其特征是:一组预定模板代表一个代码本,并且其特征是:上述方法包括进一步以下步骤:
接收某一预定语言的话音消息,并进一步接收标识着该预定语言的信息;
从对应于一组预定语言的一组预定代码本中选择一个对应于该预定语言的一个预定代码本;以及
进一步发射一个标识着所选择的预定代码本的代码本标识符。
17.根据权利要求16的方法,其特征是:话音消息通过电话网络传递,并且其特征是:电话访问号提供了标识着该预定语言的信息。
18.根据权利要求16的方法,其特征是:话音消息通过电话网络传递,并且其特征是:用户提供了标识着该预定语言的信息。
19.根据权利要求18的方法,其特征是:用户通过输入一个预定代码,提供了标识着该预定语言的信息。
20.一种处理低比特率语音传输,来提供话音消息的方法,上述方法包括以下步骤:
接收与一组预定模板中的一个或多个模板相对应的一个或多个索引;
从与接收到的一个或多个索引相对应的一个或多个模板中产生一个语音参数数组;
处理语音参数数组,产生解压缩的数字语音数据;以及
从解压缩的数字语音数据产生一个话音消息。
21.根据权利要求20的方法还包括存储这组预定模板的步骤。
22.根据权利要求21的方法,其特征是:这组被存储的预定模板对应于一组被用于压缩话音消息的预定模板的副本。
23.根据权利要求21的方法,其特征是:这组被存储的预定模板对应于一组被用于压缩话音消息的预定模板的副本。在被存储之前,采用预定矩阵逆变换函数来变换上述预定模板。
24.根据权利要求20的方法,其特征是:产生语音参数数组的上述步骤包括采用预定矩阵逆变换函数来对一个或多个模板进行变换的步骤。
25.根据权利要求21的方法,其特征是:所存储的预定模板组代表一个对应于一种预定语言的代码本,并且其特征是,与一种或多种预定语言相对应的一个或多个代码本被存储。
26.根据权利要求25的方法,其特征是:上述存储步骤还存储代码本标识符,这些代码本标识符标识着被存储的一个或多个代码本。
27.根据权利要求26的方法,其特征是:标识着一个或多个被存储的代码本的代码本标识符对应于由用户提供的信息。
28.根据权利要求27的方法,其特征是:由用户提供的信息对应于电话访问号码。
29.根据权利要求23的方法,其特征是:预定的矩阵逆变换函数是一个二维离散反余弦函数。
30.根据权利要求26的方法,其特征是:接收以一个预定信令协议编码的一个或多个索引以及标识着一个预定代码本的代码本标识符。
31.根据权利要求30的方法,其特征是:语音参数数组被排列成语音参数帧以供压缩,并且其特征是:接收以一个预定信令协议编码的语音参数帧。
32.一种非对称话音压缩处理器,用于处理话音消息,来提供很低比特率的语音传输,上述非对称话音压缩处理器包括:
一个话音输入处理器,用于处理话音消息,从而产生数字化的语音数据。
一个被编程的信号处理器,用于
从数字化的语音数据产生语音参数;
把语音参数排列成一个包含一系列参数帧的二维参数矩阵;
采用某一预定的二维矩阵变换函数对该二维参数矩阵进行变换,来得到一个二维变换矩阵;
推导出代表着一组预定模板中的模板与二维变换矩阵间的距离的一些距离值,由标识着该组预定模板中的模板的索引来标识被推导出的距离值;
比较被推导出的距离值,并从中选择一个索引,该索引对应于该组预定模板中具有所推导出的距离值中一个最短距离的一个模板;
以及一个发射机,用于发射一个索引,该索引对应于该组预定模板中具有最短距离的所选择的模板。
33.根据权利要求32的非对称话音压缩处理器,其特征是:该话音消息是一个模拟话音消息,并且其特征是,上述语音输入处理器包括:
一个抽样装置,用于对话音消息进行抽样,来产生话音消息样本;以及
一个数字化装置,用于对话音消息样本进行数字化处理,来产生数字化的语音数据。
34.根据权利要求32的非对称话音压缩处理器,其特征是:该话音消息被数字化为数字化的语音样本,并且其特征是,上述语音输入处理器包括:
一个组帧装置(framer),用于产生代表着一个预定数目的数字化语音样本的语音帧,以及
一个语音分析装置,用于在语音帧上进行语音分析,来产生语音参数。
35.根据权利要求32的非对称话音压缩处理器,其特征是:预定的二维矩阵变换函数是一个二维离散余弦函数。
36.根据权利要求32的非对称话音压缩处理器,还包括一个对索引进行编码的编码器,该索引对应于在一个预定的传输信令协议中所选择的最短距离。
37.根据权利要求32的非对称话音压缩处理器,其特征是:上述信号处理器也被编程,以产生一个代表着话音消息的语音参数的二维语音数据矩阵,并且其特征是:这一系列参数帧包括二维语音数据矩阵的一部分。
38.根据权利要求37的非对称话音压缩处理器,其特征是:这部分二维语音数据矩阵包括一个预定数目的、对应于二维参数矩阵的参数帧。
39.根据权利要求37的非对称话音压缩处理器,其特征是:这部分二维语音数据矩阵包括一个数目不定的、对应于二维参数矩阵的参数帧。
40.根据权利要求37的非对称话音压缩处理器,上述信号处理器还包括一个存储器,用于把一系列索引存储在一个索引数组中,其特征是:一个索引对应于具有最短的距离、最好地代表着这部分二维语音数据矩阵的一个模板。
41.根据权利要求40的非对称话音压缩处理器,还包括一个编码器,用于以一个预定的传输信令协议对索引数组进行编码。
42.根据权利要求32的非对称话音压缩处理器,其特征是:上述信号处理器通过利用下面的公式计算距离值,从而导出一个距离值,
dk=∑i,jwi,j(ai,j-b(k)i,j)2这里,
dk代表一组预定模板的一个模板与二维变换矩阵的距离,
(ai,j-b(k)i,j)代表该组预定模板的每个模板的相应单元与二维变换矩阵间的差,并且
wi,j代表某一预定加权数组的一个相应的单元。
43.根据权利要求32的非对称话音压缩处理器,其特征是:这组预定模板包括第一组预定模板和至少应有的第二组预定模板,并且其特征是:上述信号处理器推导出第一个距离值,该距离值代表第一组预定模板中的每一个模板与二维变换矩阵的第一部分间的距离,由第一个索引来标识上述第一个距离值,第一个索引对应于第一组预定模板中的每个模板,并且其特征是:上述信号处理器还被编程,目的是:
推导出至少应有的第二距离值,该距离值代表至少应有的第二组预定模板中的每个模板与至少应有的第二部分二维变换矩阵间的距离,由至少应有的第二索引来标识该至少应有的第二个距离值,上述第二索引对应于至少应有的第二组预定模板中的每个模板,并且其特征是:
上述信号处理器推导一组距离值是通过下列步骤:
推导第一组预定模板的第一组第一距离值,以及
进一步推导至少应有的第二组预定模板的至少应有的第二组至少应有的第二距离值,并且其特征是:
上述信号处理器将推导出的第一组距离值进行比较并从中选择具有第一组至少应有的第一距离值的一个最短距离的第一个距离值,以及
进一步将推导出的至少应有的第二组至少应有第二距离值进行比较并从中选择至少应有的第二距离值,后者具有一个至少应有的第一组至少应有的第二距离值中的最短距离,以及
上述发射机发射对应于所选择的第一距离值的第一个索引,并且还发射对应于所选择的至少应有的第二距离值的一个至少应有的第二索引。
44.根据权利要求32的非对称话音压缩处理器,其特征是:第二组预定模板比第一组预定模板包含的模板数目少。
45.根据权利要求32的非对称话音压缩处理器,其特征是:这组预定模板代表一个代码本,并且其特征是:
上述信号处理器也被编程,目的是:
分析已产生的语音参数,以确定一个话音消息的特征(characteristic),
选择一组代码本中的一个预定的代码本,该代码本对应于所确定的话音消息的特征,并且
上述发射机还发射一个标识着所选择的预定代码本的代码本标识符。
46.根据权利要求45的非对称话音压缩处理器,其特征是:上述信号处理器还包括一个编码器,用于对索引和代码本标识符进行编码,上述代码本标识符标识着在预定的传输信令协议中所选择的代码本。
47.根据权利要求32的非对称话音压缩处理器,其特征是:一组预定模板代表一个代码本,并且其特征是:
上述语音输入处理器接收某一预定语言的话音消息,并且还用于接收标识着该预定语言的信息,
上述信号处理器从一组对应于一组预定语言的一组预定代码本中选择一个对应于该预定语言的预定代码本,并且
上述发射机发射一个代码本标识符,该标识符标识着所选择的预定代码本。
48.根据权利要求47的非对称话音压缩处理器,其特征是:通过电话网络来传递话音消息,并且其特征是,电话访问号码提供了标识着预定语言的信息。
49.根据权利要求47的非对称话音压缩处理器,其特征是:通过电话网络来传递话音消息,并且其特征是,用户提供了标识着预定语言的信息。
50.根据权利要求49的非对称话音处理器,其特征是:用户通过输入一个预定代码来提供标识着预定的语言的信息。
51.一种通信设备,用于接收低比特率语音传输,来提供话音消息,上述通信设备包括:
一个接收机,用于接收与一组预定模板中的一个或多个模板相对应的一个或多个索引;
一个信号处理器,对其进行编程,从与接收到的一个或多个索引相对应的一个或多个模板中产生一个语音参数数组;
一个语音合成器,用于处理语音参数数组,来产生解压缩的数字语音数据;以及
一个转换器,用于从解压缩的数字语音数据产生一个话音消息。
52.根据权利要求51的通信设备还包括一个用来存储该组预定模板的存储器。
53.根据权利要求52的通信设备,其特征是:存储在上述存储器中的该组预定模板对应于一组被用于压缩话音消息的预定模板的副本。
54.根据权利要求52的通信设备,其特征是:存储在上述存储器中的该组预定模板对应于一组被用于压缩话音消息的预定模板的副本。在把上述模板存储在上述存储器之前,已经采用一个预定的矩阵逆变换函数对其进行了变换。
55.根据权利要求51的通信设备,其特征是:对上述信号处理器进行编程,通过采用一个预定矩阵逆变换函数对一个或多个模板进行变换,从而产生一个语音参数数组。
56.根据权利要求52的通信设备,其特征是:存储在上述存储器中的这组预定模板代表一个代码本,该代码本与一种预定语言相对应,并且其特征是,上述存储器存储与一种或多种预定语言相对应的一个或多个代码本。
57.根据权利要求56的通信设备,其特征是:上述存储器还存储代码本标识符,该代码本标识着存储在上述存储器中的一个或多个代码本。
58.根据权利要求57的通信设备,其特征是:标识着存储在上述存储器中的一个或多个代码本的代码本标识符对应于用户提供的信息。
59.根据权利要求58的通信设备,其特征是:由用户提供的信息对应于电话访问号码。
60.根据权利要求54的通信设备,其特征是:预定的矩阵逆变换函数是一个二维离散反余弦函数。
61.根据权利要求57的通信设备,其特征是:用一种预定的传输信令协议对一个或多个索引以及标识着一个预定代码本的代码本标识符进行编码,并且其特征是,上述通信设备还包括一个译码器,用来对一个或多个索引以及代码本标识符进行译码,上述一个或多个索引对应于该组预定模板中的一个或多个模板,上述代码本标识符标识着来自该预定传输信令协议中的一个预定代码本。
62.一种处理话音消息,提供低比特率语音传输的方法,上述方法包括以下步骤:
接收全部的话音消息;
处理全部话音消息,并从中推导出标识着代表一个语音参数矩阵的预定模板序列的索引序列;以及
发射该索引序列。
CN96191077A 1995-09-14 1996-06-28 采用非对称话音压缩处理的很低比特率的话音信息系统 Expired - Fee Related CN1121682C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/528,455 US5781882A (en) 1995-09-14 1995-09-14 Very low bit rate voice messaging system using asymmetric voice compression processing
US08/528,455 1995-09-14

Publications (2)

Publication Number Publication Date
CN1165574A true CN1165574A (zh) 1997-11-19
CN1121682C CN1121682C (zh) 2003-09-17

Family

ID=24105751

Family Applications (1)

Application Number Title Priority Date Filing Date
CN96191077A Expired - Fee Related CN1121682C (zh) 1995-09-14 1996-06-28 采用非对称话音压缩处理的很低比特率的话音信息系统

Country Status (9)

Country Link
US (1) US5781882A (zh)
EP (1) EP0792502B1 (zh)
JP (1) JPH10509534A (zh)
KR (1) KR100257361B1 (zh)
CN (1) CN1121682C (zh)
AT (1) ATE222394T1 (zh)
DE (1) DE69622985T2 (zh)
ES (1) ES2183000T3 (zh)
WO (1) WO1997010584A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103929222A (zh) * 2005-01-13 2014-07-16 英特尔公司 码书生成系统及相关方法

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6137863A (en) * 1996-12-13 2000-10-24 At&T Corp. Statistical database correction of alphanumeric account numbers for speech recognition and touch-tone recognition
US6154579A (en) * 1997-08-11 2000-11-28 At&T Corp. Confusion matrix based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
US6219453B1 (en) 1997-08-11 2001-04-17 At&T Corp. Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm
US6208965B1 (en) 1997-11-20 2001-03-27 At&T Corp. Method and apparatus for performing a name acquisition based on speech recognition
US6205428B1 (en) * 1997-11-20 2001-03-20 At&T Corp. Confusion set-base method and apparatus for pruning a predetermined arrangement of indexed identifiers
US6223158B1 (en) 1998-02-04 2001-04-24 At&T Corporation Statistical option generator for alpha-numeric pre-database speech recognition correction
US6205261B1 (en) 1998-02-05 2001-03-20 At&T Corp. Confusion set based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
US7031925B1 (en) 1998-06-15 2006-04-18 At&T Corp. Method and apparatus for creating customer specific dynamic grammars
US6400805B1 (en) 1998-06-15 2002-06-04 At&T Corp. Statistical database correction of alphanumeric identifiers for speech recognition and touch-tone recognition
US7937260B1 (en) 1998-06-15 2011-05-03 At&T Intellectual Property Ii, L.P. Concise dynamic grammars using N-best selection
JP3784583B2 (ja) * 1999-08-13 2006-06-14 沖電気工業株式会社 音声蓄積装置
KR101218776B1 (ko) 2006-01-11 2013-01-18 삼성전자주식회사 다운믹스된 신호로부터 멀티채널 신호 생성방법 및 그 기록매체

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2305855A1 (fr) * 1975-03-28 1976-10-22 Westinghouse Electric Corp Transistor mnos a drain-source protege vis-a-vis des radiations
US4479124A (en) * 1979-09-20 1984-10-23 Texas Instruments Incorporated Synthesized voice radio paging system
US4612414A (en) * 1983-08-31 1986-09-16 At&T Information Systems Inc. Secure voice transmission
US4769642A (en) * 1985-12-31 1988-09-06 Motorola, Inc. Paging receiver with LPC speech synthesizer
US4701943A (en) * 1985-12-31 1987-10-20 Motorola, Inc. Paging system using LPC speech encoding with an adaptive bit rate
US4811376A (en) * 1986-11-12 1989-03-07 Motorola, Inc. Paging system using LPC speech encoding with an adaptive bit rate
US4815134A (en) * 1987-09-08 1989-03-21 Texas Instruments Incorporated Very low rate speech encoder and decoder
US4873520A (en) * 1987-11-02 1989-10-10 Motorola, Inc. Paging receiver for storing digitized voice messages
US4885577A (en) * 1988-03-02 1989-12-05 Motorola, Inc. Paging system for providing a data message and a voice message to a unique address of a paging receiver
JPH02287399A (ja) * 1989-04-28 1990-11-27 Fujitsu Ltd ベクトル量子化制御方式
US4975956A (en) * 1989-07-26 1990-12-04 Itt Corporation Low-bit-rate speech coder using LPC data reduction processing
JP3102015B2 (ja) * 1990-05-28 2000-10-23 日本電気株式会社 音声復号化方法
US5371853A (en) * 1991-10-28 1994-12-06 University Of Maryland At College Park Method and system for CELP speech coding and codebook for use therewith
US5495555A (en) * 1992-06-01 1996-02-27 Hughes Aircraft Company High quality low bit rate celp-based speech codec
US5327520A (en) * 1992-06-04 1994-07-05 At&T Bell Laboratories Method of use of voice message coder/decoder
FR2700632B1 (fr) * 1993-01-21 1995-03-24 France Telecom Système de codage-décodage prédictif d'un signal numérique de parole par transformée adaptative à codes imbriqués.

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103929222A (zh) * 2005-01-13 2014-07-16 英特尔公司 码书生成系统及相关方法

Also Published As

Publication number Publication date
JPH10509534A (ja) 1998-09-14
CN1121682C (zh) 2003-09-17
EP0792502A4 (en) 1998-12-23
EP0792502B1 (en) 2002-08-14
US5781882A (en) 1998-07-14
ES2183000T3 (es) 2003-03-16
DE69622985D1 (de) 2002-09-19
ATE222394T1 (de) 2002-08-15
DE69622985T2 (de) 2002-11-28
EP0792502A1 (en) 1997-09-03
KR970707528A (ko) 1997-12-01
KR100257361B1 (ko) 2000-05-15
WO1997010584A1 (en) 1997-03-20

Similar Documents

Publication Publication Date Title
CN1121682C (zh) 采用非对称话音压缩处理的很低比特率的话音信息系统
CN1179324C (zh) 改善串联声码器话音质量的方法与设备
CN1123253C (zh) 数字无线电系统、数字信号处理器和该处理器的操作方法
CN1109459C (zh) 预防语音串联编码的代码转换器
CN1223989C (zh) 可变速率语音编码器中的帧擦除补偿法及用该方法的装置
CN1096766C (zh) 组织和恢复无线通信系统中通信的信息的方法和设备
CN101466043B (zh) 一种多路音频信号处理的方法、设备及系统
CN1375096A (zh) 话音编码设备的频谱幅度量化
JPH05505928A (ja) 移動無線電話通信システムにおけるトランスコーダおよび改良された陸上システム
CN1176702A (zh) 使用与发话人相关的时标变化技术的通信系统和方法
CN1408111A (zh) 在输出声频信号呈现期间处理输入语音信号的方法和设备
CN1116481A (zh) 通过可变延迟信道提供时间敏感消息的方法和设备
CN1189911A (zh) 在不连续发射的语音译码器中计算挂起周期的方法、语音编码器和收发机
RU97114804A (ru) Способ и устройство осуществления поиска в справочнике кодов для кодирования звукового сигнала и система сотовой связи
CN1894875A (zh) 用于交换和处理移动无线子系统控制信息的方法和设备
US5666350A (en) Apparatus and method for coding excitation parameters in a very low bit rate voice messaging system
CN101322375B (zh) 音频数据包格式及其解码方法、校正移动通信终端编解码器安装错误的方法以及执行该方法的移动通信终端
CN1085475C (zh) 无绳电话设备
CN1139057C (zh) 用于传送低比特率语音的语音通信处理器及相关通信设备
CN111951821A (zh) 通话方法和装置
CN1212604C (zh) 基于可变速语音编码的语音合成器
CN117059104A (zh) 语音识别方法、相关装置和介质
KR100264828B1 (ko) 보코더의 피시엠 데이터 인터페이스방법
KR100243663B1 (ko) 다지점 접속 제어 장치중 오디오 처리 장치에서의 음성 신호유무 결정 방법
CN1742508A (zh) 可在同一通信信道中提供多种服务的移动设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1043602

Country of ref document: HK

C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee