CN1943189A - 增加通信系统中所感知交互性的方法及设备 - Google Patents
增加通信系统中所感知交互性的方法及设备 Download PDFInfo
- Publication number
- CN1943189A CN1943189A CN200580012005.5A CN200580012005A CN1943189A CN 1943189 A CN1943189 A CN 1943189A CN 200580012005 A CN200580012005 A CN 200580012005A CN 1943189 A CN1943189 A CN 1943189A
- Authority
- CN
- China
- Prior art keywords
- voice signal
- described voice
- signal section
- equipment
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004891 communication Methods 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims description 67
- 238000012986 modification Methods 0.000 claims abstract description 71
- 230000004048 modification Effects 0.000 claims abstract description 71
- 230000005540 biological transmission Effects 0.000 claims abstract description 29
- 230000005236 sound signal Effects 0.000 claims abstract description 19
- 230000011664 signaling Effects 0.000 claims description 24
- 230000008447 perception Effects 0.000 claims description 21
- 238000012217 deletion Methods 0.000 claims description 17
- 230000037430 deletion Effects 0.000 claims description 17
- 230000002452 interceptive effect Effects 0.000 claims description 17
- 238000004458 analytical method Methods 0.000 claims description 11
- 230000004044 response Effects 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 5
- 238000005728 strengthening Methods 0.000 claims description 2
- 239000003638 chemical reducing agent Substances 0.000 claims 2
- 230000000977 initiatory effect Effects 0.000 claims 2
- 239000000700 radioactive tracer Substances 0.000 claims 1
- 230000001934 delay Effects 0.000 abstract description 4
- 238000012545 processing Methods 0.000 abstract description 3
- 238000005538 encapsulation Methods 0.000 description 15
- 238000002715 modification method Methods 0.000 description 14
- 230000000694 effects Effects 0.000 description 11
- 238000012546 transfer Methods 0.000 description 11
- 230000005284 excitation Effects 0.000 description 10
- 230000008859 change Effects 0.000 description 7
- 239000003550 marker Substances 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 4
- 238000004904 shortening Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 230000006837 decompression Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000003825 pressing Methods 0.000 description 2
- 238000005086 pumping Methods 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- PZEAJTAVRYLBTK-LHHMISFZSA-N 1-[(1s,3s,4s,5r)-8-methyl-3-(4-methylphenyl)-8-azabicyclo[3.2.1]octan-4-yl]propan-1-one Chemical compound C1([C@H]2C[C@@H]3CC[C@@H](N3C)[C@H]2C(=O)CC)=CC=C(C)C=C1 PZEAJTAVRYLBTK-LHHMISFZSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000005336 cracking Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- GOLXNESZZPUPJE-UHFFFAOYSA-N spiromesifen Chemical compound CC1=CC(C)=CC(C)=C1C(C(O1)=O)=C(OC(=O)CC(C)(C)C)C11CCCC1 GOLXNESZZPUPJE-UHFFFAOYSA-N 0.000 description 1
- 238000010189 synthetic method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mobile Radio Communication Systems (AREA)
- Telephonic Communication Services (AREA)
Abstract
通过在无需减少与通信交换关联的实际传输和建立延迟的情况下减少转换通信中的活动发射机的感知延迟,实现用户通信中的感知交互性。识别用户通信中的声音信号。声音信号经过分析以便识别或估算声音信号段。声音信号段优选地(但不一定)处于声音信号的开始或结束处。声音信号段可直接从声音信号本身、从声音信号的修改形式或者从与声音信号关联的信号中选取。进行应当或者可以修改声音信号段的长度或持续时间的确定。声音信号段的一个或多个修改被确定并提供给一个或多个处理单元以执行修改。
Description
相关申请
[0001]本申请涉及标题为“用于实时交互无线电通信的方法及设备”的共同转让的美国专利申请序号美国专利申请序号10/719018(代理人档案号2380-790)。
技术领域
[0002]技术领域是通信。本发明增加语音通信中所感知的交互性,并且对基于IP的语音通信系统特别有利。一种实用但非限制性的应用是按键讲话(PTT)通信。
背景和概述
[0003]目前正在进行为GPRS、EGPRS、W-CDMA以及标准化机制将用于信道资源分配和传输的其它蜂窝通信开发按键讲话(PTT)服务的工作。这些机制设计用于通用数据通信以便提供对延迟和交互性没有或者有极低要求的服务。原始设计没有把重点放在使传输延迟最小。在任何电话应用中,长延迟妨碍终端用户,并且负面影响感知服务质量。PTT服务的当前目标和要求即使PTT为半双工时也需要最小的传输延迟。实际上,PTT延迟要求几乎与全双工电话同样严格。
[0004]在GPRS、EGPRS、W-CDMA等上采用基于IP的语音(VoIP)的PTT中,声音信号的“口到耳”延迟(从发送方到接收方)相当长,明显比常规电路交换电话更长。当活动发言人在不同用户之间转换时,即,当用户A停止讲话并开始收听以便等待来自用户B的响应时,终端用户检测这个延迟。用户A把长转换延迟感知为低交互性或者来自另外的用户的长响应时间。本发明解决的主要问题是如何增强交互性。简言之,这种增强的交互性通过减少感知延迟并且无需减少实际传输和建立延迟来实现。但是,在论述这个问题以及所提出的解决方案之前,提供一些背景信息。
[0005]PTT是用户可通过一对一通信或者通过组通信进行连接的服务。按键讲话通信源自模拟对讲无线电,在其中,用户只要按下按钮以便开始发送来轮流发言。在模拟对讲系统中,往往没有方法禁止若干人同时发言。冲突的结果在于,消息相互重叠,以及两种消息通常失真而无法恢复。在数字PTT系统中,例如在Nextel的PTT系统中(参见Nextel的网站),存在一种称作“发言权控制”的管理功能,它在同一时间仅允许一个发言人。
[0006]数字PTT系统10的概览如图1所示。采用移动无线电12通信的用户A经由例如GPRS、EGPRS、W-CDMA等的无线电接入网16与采用移动无线电14通信的用户B进行通信。无线电接入网16包括通过无线电接口与移动无线电12进行通信的典型示例无线电基站18。典型示例无线电基站22通过无线电接口与移动无线电14进行通信。PTT服务器20耦合到无线电基站18和22,并且协调用户A与B之间的PTT通信的建立、控制和终止。
[0007]下面对于一对一通信给出PTT通信中涉及的一些基本步骤的一个实例。省略了例如选择交谈对象所需的那些步骤的其它步骤以便简化说明。
1-用户/客户机A希望向用户B发送消息,并按下PTT客户机(与移动无线电相似)上的按钮。
2-PTT客户机A向PTT服务器发送请求,请求准许发言。
3-PTT服务器判定应当允许还是拒绝该请求,并向客户机A回送“发言权授予”信号或者“发言权忙”信号。
4-在接收到“发言权授予”信号时,客户机A通常向用户A提供可视或声音信号(灯光、LED、蜂鸣声或者短旋律)以表明用户A可开始发言。
5-PTT服务器还可向客户机B发送“发言权占用”消息,通知它另一个用户已经取得发言权以及不久可接收语音包。客户机B也可向用户B提供可视或声音信号,从而为用户B提供不久可收到消息的高级告警。
6-在接收到“发言权授予”信号时,客户机A开始记录来自话筒的声音信号,并且开始语音编码器处理。语音信号通常以块(帧)进行编码。
7-PTT客户机可把一个或若干编码语音帧在传送之前封装成数据包。
8-来自客户机A的数据包通过空中接口传送给基站,并且进一步传送到PTT服务器。
9-PTT服务器经由基站通过相同或不同的空中接口把数据包转发给客户机B。
10-客户机B立即或者在小缓冲延迟之后开始所接收语音帧的解码器处理。
11-解码语音帧通过客户机B中的喇叭向用户B播放。
[0008]语音帧的编码和解码以及数据包的传送继续进行,只要发送用户按下PTT按钮。其它用户在同一时间无法发言,并且必须等待到释放发言权为止。一对多通信极为相似,但是其中具有若干接收方而不是只有一个接收方。每个步骤可在尝试减少延迟以及避免用户烦恼方面进行优化。
[0009]某些信号可用来标识“讲话突发”的有用属性。PTT中的讲话突发是从按下PTT按钮到松开期间所讲的一个或若干句子。讲话突发开始(TBS)标识讲话突发的开始,即,当前媒体包是新讲话突发的第一数据包,以及接收方的语音解码器状态应当重置以便匹配语音编码器的状态。例如,媒体包是包含声音信息的数据包(例如实时传输协议(RTP)包)。以信号通知TBS的一个示例方式是在第一数据包的RTP首标中设置RTP标记位。讲话突发结束(TBE)标识讲话突发的结束,例如当前RTP媒体包是当前讲话突发的最后一个数据包。以信号通知TBE的一个示例方式是在最后一个数据包中包含RTP首标扩展。
[0010]在通过蜂窝技术采用基于IP的语音(VoIP)的PTT服务中,建立时间和传输延迟因许多因素而可能过长。
-编码器缓冲时间。为了节省IP/UDP/RTP首标开销,即使未使用首标压缩,若干语音帧也被封装在同一个IP/UDP/RTP数据包中。例如,如果10个语音帧被装入一个RTP数据包,以及如果语音帧对应于20毫秒的语音,则编码器缓冲时间为200毫秒。
-解码器缓冲时间。在接收机中需要抖动缓冲器或帧缓冲器来补偿在分组交换网络中出现的延迟抖动。典型的抖动缓冲器通常缓冲一个或几个IP包。对于10帧/包以及抖动缓冲器中的3个数据包,解码器缓冲时间为600毫秒。
-信道分配时间。数据信道通常是共享资源,以及客户机需要在可开始实际传送之前分配传输能力。需要与管理信道分配的无线电网络节点的握手过程。这个握手过程通常耗费大约几百毫秒。
-传输和重传时间。无线电通信因无线电接口的性质而遇到大量差错。因此,通信协议需要实现检错和纠错策略,例如信道编码、交织和重传(例如ARQ)。因此,甚至更多的信息必须在已经受限的无线电信道上传送。当接收机要求重传没有正确接收的数据包时,延迟可能增加到多达150-200毫秒,取决于所丢失的数据包的部分。
-PTT服务器中的发言权控制。发言权控制信令通过空中接口来执行,它至少耗费大约200-300毫秒。如果必须等待他人停止讲话,则这个时间会更长。
-客户机中的发言权控制。由于分组交换网络中的变化延迟以及由于通过无线电接口的不可靠传输,包含发言权控制消息或讲话突发信令的数据包可能被延迟或甚至丢失。这通过在客户机中通常采用一组定时器来实现本地发言权控制功能进行处理。本地发言权控制在一些情况中可能添加附加延迟。
[0011]所有这些因素构成相当长的延迟,通常大约为一秒或几秒。这在单一的单向通信中不是大问题。但是在对话中,当活动发言方在不同人员之间转换时,长延迟令人烦恼。长延迟被感知为发送语音(讲话)至听到其他用户的响应之间的长“转换时间”。
[0012]两个用户之间的典型对话如图2所示,并且示出各种延迟。用户/客户机通过向用户/客户机B发送讲话突发(句子1)开始。用户B需要一些时间来考虑答案,然后向用户A作出响应(句子2)。对话无疑可通过更多消息(句子)继续进行,但是这两个句子足以说明延迟效果。考虑以下不同的延迟:
-初始延迟di。
-句子1的传输延迟di1。注意,例如,如果句子的某个部分在初始延迟期间被记录和缓冲,然后再以较高速度被发送,则di1不需要与di完全相同。为了简洁起见,我们假定在本描述中di1=di。
-用户B的考虑时间db。
-句子2的传输延迟di2。
-用户A遇到的转换延迟ds。
[0013]从图2可以看到,转换延时ds为:
ds=di1+db+di2 (等式1)
[0014]注意,如果用户B打断用户A,则在全双工通信中,转换延时实际上可能感知为负数。在这种情况中,根据这个定义,db为负数。但是在PTT中,如果发言权控制一次仅允许一个活动发言人、因而禁止用户B打断用户A,则转换延时不会小于零。
[0015]用户注意到的延迟是转换延迟ds。根据面对面和电话通信经验,大部分用户对于转换时间延迟具有一些期望。如果转换延迟比预期更长,则用户将会不满意服务质量,特别是在期待快速响应的情况中。一个实例是当一个用户向另一个用户询问不需要太多时间考虑适当响应的简单问题时。
[0016]已经进行理论分析和实际测试来估算这些延迟。它们已经表明,第一句子的传输延迟di1可能大约为3秒或者更多。对于后续句子,传输延迟di2、di3、...、diN大约为1秒,不包括因信道差错而重传的额外延迟。第一句子的额外延迟的原因是所需的建立时间。这种建立可对于后续句子预先进行,以便节省一些时间。
[0017]甚至例如低于0.3-0.5秒的小传输延迟也可能是明显的。对于例如高达1-2秒的较长延迟,感知质量明显降低,而且用户甚至可能变得烦恼和生气。当一个用户询问另一个用户他/她是否仍然可接通时,大约5-10秒的长延迟甚至可能触发附加传送。在严重的情况下,用户可能开始怀疑消息是否被正确转发、或者是否丢失或者甚至怀疑服务是否被中断。
[0018]延迟对于感知服务质量具有大影响,比包括语音编解码器在内的大多数其它降级因素更大。因此,重要的是减少感知延迟,以便增加服务可提供的交互性等级的感知。
[0019]用户通信中增强的感知交互性通过减少所感知的转换延迟来取得,这可通过许多方式、例如通过减少传输和建立延迟来实现。本发明说明如何进行而无需减少实际传输和建立延迟。首先,识别用户通信中的声音信号。声音信号则经过分析以便识别或估算声音信号段的开始和结束点。声音信号段优选地(但不一定)处于声音信号的开始或结束处。声音信号段可直接从声音信号本身、从声音信号的修改形式或者从与声音信号关联的信号中选取。确定是否应当或者可以修改声音信号段的长度或持续时间。声音信号段的一个或多个修改被确定并提供给一个或多个处理单元以执行修改。
附图简介
[0020]图1说明在其中可有利地采用本发明的非限制性的示例PTT通信系统;
[0021]图2说明示例时序图,表示构成转换延时的各种延迟;
[0022]图3A-3D是流程图,说明增强用户通信中的感知交互性的示例过程;
[0023]图4A说明增强PTT系统、如图1所示的PTT系统中的感知交互性的非限制性示例实现;
[0024]图4B说明增强PTT系统、如图1所示的PTT系统中的感知交互性的仅含发射机的非限制性示例实现;
[0025]图4C说明增强PTT系统、如图1所示的PTT系统中的感知交互性的仅含接收机的非限制性示例实现;
[0026]图5说明示例时序图,说明缩短句子的结束如何可增强非限制性PTT通信上下文中的感知交互性;以及
[0027]图6说明示例时序图,说明延长句子的开始如何可增强非限制性PTT通信上下文中的感知交互性。
详细说明
[0028]为了说明而不是限制的目的,以下说明阐述具体细节,例如具体实施例、过程、技术等。但是,本领域的技术人员很清楚,也可采用与这些具体细节不同的其它实施例。例如,虽然采用对PTT通信系统的非限制性示例应用来帮助以下说明,但是本发明可用于属于半双工、全双工、单工等的任何基于IP的语音(VoIP)类型的通信。单工音频的一个实例是“聊天”通信,在其中,一个用户发送声音信号(语音),而另一个用户则采用文本消息来响应。而且虽然在蜂窝无线电通信的上下文中编写本说明,但是,本发明适用于其它无线电系统(例如私有无线电系统)以及电路交换和分组交换有线电话。实际上,本发明可适用于在其中希望修改声音信号的一部分以便增强感知通信交互性的任何应用。
[0029]在一些情况下,省略对众所周知的方法、接口、装置和信令技术的详细说明,以免不必要的细节妨碍本说明。此外还在一些附图中给出各个块。本领域的技术人员会理解,这些功能可采用各个硬件电路、结合适当编程的数字微处理器或通用计算机使用软件程序和数据、采用专用集成电路(ASIC)和/或采用一个或多个数字信号处理器(DSP)来实现。
[0030]为了本说明的目的,术语“声音信号”包含任何音频信号,例如语音、音乐、静寂、背景噪声、信号音以及它们的任何组合/混合。术语“声音信号段”包含声音信号的任何部分,其中甚至包括单个声音信号样本或者单个音调周期、甚至必要时包括整个声音信号。术语“声音信号段”还包含描述声音信号的任何部分的一个或多个参数。声音信号段的一个非限制性实例可以是音频信号的一部分,例如语音、音乐、静寂、背景噪声、信号音或者任何组合。在CELP语音编码的示例上下文中的声音信号参数的非限制性实例包括线性预测编码(LPC)、音调预测器滞后、码本索引、增益系数等等。
[0031]图3A是流程图,说明能够在一台或多台计算机或者其它电子电路上实现的、用于减少通信交换中涉及的用户的感知延迟而无需减少与通信交换关联的实际建立和传输延迟的示例过程。识别用户通信中的声音信号(框S1)。声音信号经过分析以便识别或估算优选地但不一定处于声音信号的开始和/或结束处的声音信号段(框S2)。框S2包括直接从声音信号本身选择段,从声音信号的修改形式选择段,或者从与声音信号关联的信号中选择段。进行应当或者可以修改声音信号段的长度或持续时间的确定,并确定一个或多个适当的修改(框S3)。
[0032]声音信号段修改可能是任何修改,例如缩短、延长、删除、添加、过滤、再抽样等。如果声音信号段的修改形式要被修改,则与段相关的参数可能被修改。在一个LPC实例中,LPC编解码器通常产生/编码LPC剩余部分,作为两个激励向量之和。一个是音调预测器激励向量,它通常采用音调预测器滞后参数(音调脉冲间隔)和增益系数参数来描述。另一个是码本激励向量,它通常是时域信号,但采用码本索引来编码,并采用增益系数来放大。在这个实例中可能修改的参数包括LPC剩余部分、音调预测器激励向量、音调预测器滞后、音调脉冲间隔、增益系数、码本激励向量或其它码本参数。其它参数变更无疑也是可能的。作为一个实例,向量长度可能未被修改,而是改变从向量中使用的样本的数量。例如,如果接收机仅重放帧的前半部分而忽略其余样本。
[0033]来自框S3的信息被提供给被指定执行修改的一个或多个处理单元(框S4)。声音信号段经过修改以增强用户通信中的感知交互性(框S5)。一个或多个修改可分开进行或者相互结合进行。修改增强了感知交互性-更短的延迟-而无需减少实际传输和/或建立延迟。但是,修改优选地与实际传输和/或建立延迟减少技术一起使用。
[0034]图3A所示的方法步骤无需以所示顺序来实现。任何适当的顺序是可接受的。实际上,这些步骤的两个或两个以上可根据需要并行执行。例如,图3B说明另一个实例,其中的方法步骤S1-S5具有不同的顺序以及略有不同的判定步骤。图3C说明步骤S1-S7,在其中,声音信号段选择以及最佳地修改段的方式为并行过程。即使没有判定段长度应当修改,这些并行过程也可根据需要或多或少地连续工作,以便在必须进行修改时使系统反应更迅速。图3D说明步骤S1-S7中的综合分析方法。实质上尝试所有可能的变体,以及选择最佳的一个。这也可采取更“结构化”方式来进行,例如:
[0035]尝试首先仅修改静寂和/或背景噪声段。如果这还不够,则尝试修改清音段。如果这与静寂和背景噪声段的可能修改一起是足够的,则此过程结束。如果不是,则继续处理稳定浊音段。如果这与静寂和背景噪声段以及清音段的修改一起是足够的,则此过程结束。如果没有,则...等等。此过程继续处理其它段类型,直至达到关于应当修改整个段的长度的程度的目标等级。采用这种结构化方式的好处在于,长度修改比其它段类型“更易于”应用到某些段类型。“更易于”在这里表示具有最小可能声音质量降级的最大可能修改。这种结构化方式的方法步骤顺序同样只是一个实例,并且可以变更。
[0036]采用这种结构化方式的实际考虑取决于相对于整个讲话突发/句子的长度的段长度。对于存在极少预测并且缓冲器小的实时电话,可能无法进行这种操作。但是在PTT中,缓冲可能更长,以及传输和建立延迟通常更长,使这种结构化方式更具有吸引力,因为有更多声音要进行处理。
[0037]以上示例方式以非限制性方式说明本发明的实现的灵活性。方法步骤的顺序不作规定或者不是关键。在任何方法中,长度修改以受控方式进行以使任何失真为最小,因为突然“切割”声音产生大量不希望的失真。
[0038]下面描述减少通信交换中涉及的用户的感知延迟而无需减少与通信交换关联的实际建立和传输延迟的各种非限制性的示例方式。可采用实现这个目标的其它技术、实现和实施例。一般来说,声音信号段的长度或持续时间在向收听用户播放之前经过修改。被选择进行修改的段通常(但不一定)比声音信号更短,以及通常(但不一定)对段的一部分、例如一个样本或一组样本进行修改。例如,可在浊音期间插入或删除的适当部分是整个音调周期(在8kHz抽样率通常为20-140个样本)。在噪声期间,可插入或删除的适当部分可能是数百毫秒到数秒。
[0039]下面描述的几个示例方法可用来缩短声音信号段的结束或者延长声音信号段的开始。可采用其它方法,以及可修改声音信号段中的其它位置。通过缩短声音信号段的结束,接收用户更早注意到声音信号、如句子已经结束,它允许接收用户更早进行响应。通过延长声音信号的开始处的声音信号段,接收用户将更早注意到正在接收消息,即使仅添加(或插入)背景噪声。
[0040]考虑以下非限制性实例。如果声音信号是“Should we goto the movie soon?”(我们不久去看电影?),则适当修改可能是缩短“soon”中的长“o”音以及问号之后的任何静寂周期。如果声音信号是“Should we go to the movie soon?I’m ready in 5 minutes,”(我们不久去看电影?我在5分钟后准备好),则“...soon?”与“I’m...”之间的小停顿可能被选择进行减少。
[0041]在大部分情况中,如果修改方法适合信号的类型、如浊音、清音、静寂、背景噪声等,则得到更好的结果。所有单词通常具有一个或几个“浊音段”、“清音段”以及“起音”。以及在单词之间,通常存在“静寂”或“背景噪声”的短周期。“浊音”段是具有“音调”的声音,以及音调在使用声带时产生。“清音”段包括未使用声带时的声音。在单词“段”中,例如,“e”音为浊音,以及“s”、“g”、“m”、“n”和“t”为清音。例如清音、浊音和起音等的语音由人产生,而静寂和背景噪声则通常由周围环境产生。
[0042]下面所述的实现主要设计用于在用户通信终端或“客户机”中工作,因为它们已经具有语音编码和解码能力。虽然许多网络服务器不执行语音编码和解码,但是,如果服务器可执行语音编码和解码,则本发明可在服务器、例如图1的PTT服务器中实现。仅为了在半双工的基于PTT的上下文中进行说明而描述以下实现。但是这些原理同样适用于全双工(双向)对话,只不过没有表明讲话突发的开始或结束的PTT按钮。仅对于以下PTT实例,声音信号对应于通常自按下PTT按钮到松开它时由一个用户所说的一个句子。以下实例说明两个人之间的通信,但它们同样适用于组通信。
[0043]同样参照用于图1所示的PTT的示例VoIP系统,移动无线电12包括收发信机13和控制电路,移动无线电14包括收发信机15和控制电路,两个基站18和22包括各自的收发信机19、23和控制电路,以及PTT服务器20可根据系统设计、服务和/或目的可选地包括收发信机15和控制电路。
[0044]作为适用于图1所示的PTT通信系统的图3的一个非限制性应用,可执行以下步骤(不一定以这种顺序,并且可并行执行某些步骤)。
1-根据声音信号执行分析,以便查找声音信号的开始或结束,估算声音信号可能开始或结束的可能性,估算不可能开始或结束的可能性或者这些估算的组合。
2-根据步骤1中的分析,判定声音信号的结束是否可能以及应当被缩短,或者信号的开始是否可能以及应当被延长。判定适合的动作的类型。采用样本号或帧号来确定声音信号中的准确修改位置。
3-把来自步骤2的信息提供给将对声音信号施加修改的单元。
4-把修改施加于声音信号,并对收听用户产生已修改信号。这个步骤可包括修改或忽略步骤2进行的判定,取决于用于传送媒体包的信道或网络的特性。
[0045]对声音信号的修改可按照不同方式来实现。一种方式是仅发射机、基于语音编码器的配置。以上所有步骤都在发射机中进行,以及对声音信号的修改在发送编码声音信息之前进行。另一种方式是仅接收机、基于语音解码器的配置。以上所有步骤都在接收机中进行,以及对声音信号的修改在接收编码声音信息之后进行。仅发射机或者仅接收机的实现的优点是与未修改客户机的后向兼容性。
[0046]第三种方式是分布式配置。步骤1和2可在发送编码声音信息之前在发射机中执行,以及步骤4可在接收编码声音信息之后在接收机中执行。步骤3可采用与用于媒体包的相同的信道或网络来执行。分布式配置可包括在接收机中重复步骤1和/或步骤2。
[0047]分布式配置可能是优选的,因为编码器更好地了解原始信号,以及解码器了解任何传输特性。它具有未因编码过程失真的原始信号。如果若干语音帧在把数据包发送到接收机之前被封装入数据包,则编码器还可有权访问信号的较大部分。许多语音编码器还具有用于编码器处理中的预测能力。此外,解码器了解延迟抖动,它可能对于可进行修改的侵入程度有影响。
[0048]现在参照继续非限制性PTT实例的图4A,每个收发信机30包括发射机32和接收机36。在图4A所示的实例中,发射机32属于向用户B发送声音信号的用户A,以及接收机36属于从用户A接收声音信号的用户B。发射机32通过适当的网络34耦合到接收机36。一个示例网络是图1所示的无线电接入网16。在这个实例中,声音信号标记为语音,它被变换为媒体包并采用媒体包来传递。控制信令分开表示为点划线。
[0049]用户A的无线电终端向发射机控制器38发送按钮信号以便接通或断开发射机32。TX控制器还控制/管理例如在施加任何修改时以及在任何信令作为带内信令被添加时语音编码器和打包器的工作方式。只要按下按钮,则产生媒体包。按钮信号在常规全双工通信中不存在,但是可从发射机中所提供的语音活动检测器(VAD)产生相似信号。语音编码器42压缩声音信号以减少传输所需的所要求网络资源。语音编解码器的一个实例是AMR编解码器,在其中,声音信号在20毫秒的帧中被处理,以及信号从64千位/秒(8kHz抽样,8位μ律或A律)压缩到4.75和12.2千位/秒之间。语音编码器42优选地具有语音活动检测器(VAD)以检测声音信号中是否存在语音。如果信号仅包含背景噪声或静寂,则语音编码器42从语音编码转换到背景噪声编码,并开始产生静寂描述符(SID)帧来代替常规语音数据帧。背景噪声的特性缓慢地变化,比语音慢很多。这个属性用于仅定期发送SID帧,例如,在AMR中,每160毫秒发送一个SID帧。这在背景噪声段期间显著减少所要的网络资源。另外,背景噪声的长度可易于增加或减少而没有任何性能降级。SID帧中的参数通常仅描述背景噪声的频谱和能级而不描述任何单独样本。存在产生连续的SID帧(舒适噪声帧)流的其它语音编码器标准,例如CDMA2000编解码器规范IS-127、IS-733和IS-893。对于这些编解码器,舒适噪声采用极低比特率进行编码,作为连续流传送而不是发送不连续流。
[0050]若干语音帧可在传送之前共同封装入IP/UDP/RTP包(媒体包)。如果没有使用首标压缩,则IP、UDP和RTP首标是整个数据包的基本部分。在IP/UDP/RTP中,封装单元44构建RTP、UDP和IP包。封装单元44可分为若干封装单元,例如一个用于RTP,一个用于UDP,以及一个用于IP。在RTP包的构建中,封装单元44在RTP首标中设置标记位和时标值。当声音从静寂或背景噪声改变为语音时,标记位对于起音帧通常设置为1,从而发信号通知媒体流中缓冲器修改极为适合的适当位置。网络节点可利用这个位来重置缓冲器。时标对应于当前RTP包中的编码声音信号的第一声音样本的时间。编码声音信号的长度(以样本数量表示)用于对后续RTP包增加时标。例如,如果160个样本的10帧(=20毫秒)共同封装入各RTP包,则时标被增加,其中对于各RTP包10*160=1600。语音编码器42和封装单元44由发射机控制器38控制,它本身由语音分析器40控制。
[0051]在接收机36,所接收数据包在被拆包之前首先存储在抖动缓冲器46中。数据包因传输延迟抖动而以不规则间隔到达抖动缓冲器46。抖动缓冲器46均衡延迟抖动,使得语音解码器56以规则间隔、例如每20毫秒接收语音帧。抖动缓冲器46可结合尝试使缓冲器等级(缓冲器中的数据包数量)保持大致恒定的适配机制。当检测到其中设置了表明讲话突发的开始的标记位的RTP包时,SID帧可添加到抖动缓冲器(或者帧缓冲器)中或者从其中删除。如果使用帧缓冲器52,则抖动缓冲器46是可选的。
[0052]拆包单元48把所接收数据包拆包为语音帧,并删除IP、UDP和RTP首标。拆包单元48可能是抖动缓冲器46或者帧缓冲器52的一部分。如果若干语音帧被封装入同一个媒体包,则具有帧缓冲器52而不是抖动缓冲器46是有用的。帧缓冲器功能性与抖动缓冲器相似,其中包括适配机制,但是它对语音帧而不是RTP包起作用。采用帧缓冲器代替抖动缓冲器的优点是增加的分辨率--如果若干语音帧被封装入同一个包。如果使用抖动缓冲器46,则帧缓冲器52是可选的。帧缓冲器52也可集成到抖动缓冲器46中。
[0053]语音解码器56从媒体包产生声音信号。当仅每N帧接收SID帧时,舒适噪声生成(CNG)在静寂或背景噪声周期中由语音解码器56产生。CNG对于各语音帧间隔建立随机激励向量。激励向量采用SID帧中包含的频谱参数和增益系数来过滤,从而产生听起来与原始背景噪声相似的声音信号。所接收SID帧参数通常从先前接收的SID帧进行内插,以便避免频谱以及声音电平中的不连续。
[0054]语音解码器56和任何帧缓冲器52由通过网络34所接收的控制信令以及由接收机控制器54控制。如果信令集成在媒体包中,则接收机控制器54可利用来自封装分析器50的信息。封装分析器50还从拆包单元48和抖动缓冲器46接收信息。
[0055]语音分析器40根据语音信号或者根据从语音信号导出的参数来确定声音信号的性质。例如,语音分析器40确定语音段是浊音、清音、噪声还是静寂;是稳定(当声音没有从帧到帧改变(或者没有显著改变)时)还是非稳定(当有(显著)变化时);是音量提高还是渐弱;或者它是否包含语音起音(从背景噪声转到语音)。这些属性用来查找声音信号中的适当位置供修改。
[0056]一个备选方案是让语音分析器40估算似然特性。例如,大部分句子以渐弱周期结束。因此,在信号的这类部分期间句子结束的可能性高。这种属性可用于缩短甚至松开PTT按钮之前的声音信号。还可估算相反的可能性,即句子将延续某个时间。对于语音起音段以及对于稳定语音段,这种可能性高,因为这些段之后通常跟随更多语音段而不是跟随静寂或背景噪声。
[0057]语音分析器40可集成在语音编码器中,或者可能是图4A所示的分开功能。如果采用仅接收机的解决方案,则在接收机36中可能需要与发射机32中的语音分析器40相似的语音分析器。
[0058]发射机控制器38除了管理发射机32中的整体功能性之外,还判定声音信号是否应当延长或缩短以及信号中应当施加修改之处。修改判定可基于在语音分析器40中所确定的声音信号的类型,以及在通信为PTT通信时还可能可选地基于PTT按钮信号。发射机控制器38还可采用来自返回路径的相应信号,即在所接收语音信号中。通常,在客户机A发送媒体包时,客户机B将向客户机A发送某种反馈信息(例如延迟、延迟抖动、丢包)。当修改声音信号时,这种反馈信息可在客户机A中使用。
[0059]对于要在发射机32中执行的声音信号的修改,发射机控制器38向封装单元44和/或语音编码器42发送命令。对于应当在接收机中执行的声音信号的修改,发射机控制器38通过网络向接收机控制器54发送信号。在仅接收机的实现中不需要发射机控制器38。
[0060]语音编码器42可应用由发射机控制器38判定的基于样本的修改。实例包括以下所述的修改方法一、三、四和五。声音信号的长度可在编码之前修改,在这种情况中,修改将在语音编码器42中或者在语音编码器42之前的分开单元中执行。因此,修改可基于样本来进行,而不是如修改将在封装单元44中执行时的情况那样基于整个帧来进行。这种方法在仅发射机的实现中特别有用。
[0061]封装单元44应用由发射机控制器38判定的基于帧或数据包的修改。实例包括忽略或添加SID帧以及忽略或添加NO_DATA帧(NO_DATA帧是没有语音数据的帧,以及例如在帧为了系统信令被“偷取”时使用)。封装单元44还添加集成到媒体包中的信令、例如在使用带内隐式信令时改变分包(每包的帧数),或者添加RTP首标扩展。从发射机到接收机的信令可通过三种方式来进行:带外显式信令、带内显式信令以及带内隐式信令。对于显式带外信令,信令与媒体分开传送。作为RTP中的非限制性实例,可发送RTCP包。对于显式带内信令,可使用媒体包中的字段。作为非限制性RTP实例,可设置标记位或者添加首标扩展。对于隐式带内信令,通过改变分包、即一个数据包中传送的帧数而不是具有恒定封装速率来发送信号。拆包单元48在使用带内显式信令时对其进行查找和提取,并将其发送给RX控制单元。接收机36中的封装分析器50分析所接收数据包,以便例如在使用可变分包时检测任何带内隐式信令。
[0062]接收机控制器54管理接收机36中的声音信号修改。根据直接或者经由封装分析器50来自发射机32的信令,以及可能还根据延迟、延迟抖动和丢包的估算,接收机控制器54判定声音信号是否应当被修改,并决定适当的修改。接收机控制器54还可将其判定基于与以上对于发射机32所述的分析相似但在接收机中执行的语音分析的结果。这种分析可基于解码语音或者基于所接收语音编码器参数。在仅发射机的实现中不需要接收机控制器54。
[0063]语音解码器56应用由接收机控制器54判定的基于样本的修改。声音信号的长度可在解码之后修改,在这种情况中,修改将在语音解码器56中或者在语音解码器56之后的分开单元中执行。因此,修改可基于样本来进行,而不是如修改在拆包单元48中执行时的情况那样基于整个帧来进行。
[0064]图4B说明仅发射机的实现的一个非限制性实例。在这种情况中,语音在语音编码器42中修改。图4C说明仅接收机的实现的一个非限制性实例。语音分析器60在这种情况中表示为耦合在语音解码器56与接收机(RX)控制器54之间。RTP首标中的某种信息、如标记位在修改的管理中可能是有用的。如果使用这种首标信息,则拆包单元48对它进行提取并将它发送给RX控制器54。同样的首标信息也可由抖动缓冲器46(未示出)来提取。
[0065]若干方法可用来缩短或延长声音信号。对于极小和很少发生的修改,能够只添加或删除声音信号中的样本。虽然这个第一示例修改方法对于很小且很少发生的修改是可行的,但是采用这种方法的更广泛的修改将产生明显失真。实现这个第一方法的更好方式是在产生合成信号之前添加或删除LPC剩余部分中的样本。可进行这种操作,其中在静寂和背景噪声期间具有良好质量,并且在清音期间仅具有较小失真。对于浊音段,采用这种方法的广泛修改通常不是优选的,因为音调频率会改变,它是收听者易于发觉的。另一个缺点在于,修改必须相当小以避免失真。即使每秒仅删除或添加几个样本,失真也变得明显。对于PTT应用,这些声音信号段修改仅提供边缘效应,因为句子往往相当短,例如5-10秒。
[0066]第二示例修改方法是通过在抖动缓冲器46中或者在帧缓冲器52中添加或删除舒适噪声包来缩短或延长静寂或背景噪声段。抖动缓冲器中的数据包或者帧缓冲器52中的帧在这些帧被解码之前在语音起音帧之前的帧处被添加或删除。在语音起音处,抖动缓冲器等级(抖动缓冲器46中当前的数据包数量)被分析。如果该等级低于目标等级,则舒适噪声包被添加,以便把缓冲器填充到预期等级。如果该等级高于目标等级,则数据包从抖动缓冲器46中删除,以便降到预期等级。类似地,舒适噪声帧可在帧缓冲器52中被添加和删除。为了帮助这个操作,语音编码器42优选地对于起音帧在RTP包首标中设置标记位,从而发信号表明当前帧是语音突发的开始以及前导帧仅包含静寂或背景噪声。接收机(以及任何中间系统节点)可利用这个信息来判定执行延迟适配的时间。
[0067]被添加或删除的数据包包含静寂或背景噪声样本。或者,那些数据包包含描述静寂(SID帧)以及可被解码为静寂或背景噪声信号的语音编码器参数。当语音活动因子(VAF)不太高、例如达到50-70%时,即连续语音突发之间有充分静寂周期时,这种第二修改方法很适用。对于PTT,可能预计高语音活动因子,例如达到90-100%,因为预计用户在按下按钮时的大部分时间正在讲话以及在完成时将松开按钮。因此,静寂和背景噪声周期将会很少并且较短,它提供极少修改余地。
[0068]添加或删除舒适噪声包的一个备选方案是延长或缩短从SID帧所产生的声音信号(第三示例修改方法)。SID帧可能例如每24帧才被传送。SID帧包含通常为增益参数的关于信号能量的信息以及通常采取LPC滤波器系数的形式的频谱的形状。通过建立随机激励信号、通过以频谱参数过滤激励信号以及通过采用增益参数,在接收机中产生舒适噪声。通过SID帧,易于只是通过建立随后通过LPC综合滤波器进行过滤的更短或更长的随机激励信号来缩短或延长合成信号。如果没有使用SID帧,则相应的参数通常可在接收端从合成声音信号来估算,然后可采用相似的SID合成方法。与前面所述的第二示例修改方法相似,这种第三方法在语音活动因子不太高时更为适用。
[0069]第四示例修改方法是缩短或延长浊音段。对于较大的修改,能够在浊音期间在具有良好质量的情况下添加或删除音调周期。对于PTT,这是一种适当的修改方法,并且可在浊音段中根据需要频繁使用。
[0070]第五示例修改方法是缩短或延长清音段。对于清音段,能够在通过LPC综合滤波器合成之前添加或删除LPC剩余样本。第五方法与用于背景噪声的第一和第三方法相当相似。但是在这种情况中,用于产生激励信号的参数对于每个帧从编码器发送给解码器,并且激励无需随机化。
[0071]下面是在示例PTT上下文中缩短声音信号段的非限制性实例。这些实例可用来缩短声音信号段的任何部分。
1-在语音解码器中减少合成语音信号中的浊音段的播出时间。可采用第四示例修改方法。
2-在语音编码器中在编码之前减少浊音段的长度。可采用第四示例修改方法。
3-在语音解码器中减少合成语音信号中的清音段的播出时间。可采用第五示例修改方法。
4-在语音编码器中在编码之前减少清音段的长度。可采用第五示例修改方法。
5-在编码之前缩短或删除静寂或背景噪声段/帧。可采用第三示例修改方法。
6-在编码器中编码之后缩短或删除静寂或背景噪声帧(SID帧)。可采用第二示例修改方法。
7-在解码器中在解码之前缩短或删除静寂和背景噪声帧(SID帧)。可采用第二示例修改方法。
8-在语音解码器中在解码之后缩短或删除静寂和背景噪声段/帧。可采用第三示例修改方法。
[0072]对于方法1和3,通常不知道信号是浊音还是清音,因此信号必须首先被解码。对于动作6和7,SID帧通常采用不同的帧类型标识符或者不同的位分配来唯一标识,这使得容易知道该帧是否为SID帧。在已经检测到句子的结束时,以及当存在句子不久将结束的高可能性时,例如当语音信号渐弱时、通常在清音期间,可采用这些方法。当已经检测到后续句子的开始时,例如当两个句子之间仅存在短暂停顿时,或者当存在非语音信号、如等待音乐时,它们在紧接语音起音之后或者在浊音段期间可能不太有用。
[0073]表明对声音信号以及对用户之间的交互性的作用的一个实例在图5中提供,在其中,句子1的结束在接收机中被缩短。由于把若干帧装入一个RTP包,以及由于延迟抖动,当用户A松开PTT按钮时,以及当接收机接收到关于句子的结束被检测到或者即将到来的信号时,在接收机中,在抖动/帧缓冲器中可能留下许多帧。
[0074]下面是在示例PTT上下文中延长声音信号段的非限制性实例。这些实例可用来延长声音信号段的任何部分。
1-在接收发言权授予信号之前开始声音信号的记录。对背景噪声编码,以及紧接着接收发言权授予信号之后发送SID帧。接收机则可开始产生噪声,直到接收第一语音包。
2-接收机可立即开始产生噪声,即使不知道发射机上的准确噪声。在这种情况中,先前接收的SID帧可再用,或者背景噪声可从先前接收的语音帧中估算。噪声甚至可在没有先前知识的情况下产生。
3-延长也可采用预先记录(存储)的声音信号或者预先记录(存储)的声音信号的参数来进行。
[0075]在已经检测到句子的开始时,例如在发射机已经发送显式信号通知接收机已经开始语音时,在接收到来自PTT服务器的发言权占用信号之后,没有接收到来自发射机的任何媒体包以及中间句子,当停顿需要被延长时,可采用这些方法。当PTT按钮已经被按下但在接收到发言权授予信号之前被松开时,在接收到发言权占用信号之前,因为不知道句子将到达,在语音信号中间,例如在浊音段期间,当完全不同的声音干扰时,当检测到后续句子的开始时,例如当两个句子之间仅存在短暂停顿时,当停顿不应当延长时,以及当存在非语音信号、例如等待音乐时,这些方法可能不太适合。
[0076]表明对声音信号以及对用户之间的交互性的作用的一个实例在图6中提供,在其中,句子2的开始在接收机中被延长。这种延长也可对于第一句子进行。
[0077]如前面所述,如果服务器具有对声音信号施加修改所需的语音编码和解码能力,则本发明可在服务器、如PTT服务器中实现。一个实例可能是,语音编码能力必须在服务器中实现,因为它用于具有不同语音编解码器的不同蜂窝系统。但是,即使服务器没有这些能力,服务器仍然可添加或删除IP/UDP/RTP包。服务器也可在更多数据包中重新封装和分发语音帧,或者可把数据包合并为更少数据包,这允许服务器添加或删除SID和NO_DATA帧。
[0078]通过增强用户通信的感知交互性,用户可能对服务更为满意。这个好处在无需减少通信中的任何实际传输和建立延迟的情况下实现。还存在辅助利益。例如,延长句子的开始还可用来构建延迟抖动的某个余量。本发明可以完全在客户机中实现,在这种情况中,对任何网络节点没有影响。即使本发明在服务器中实现,实现工作仅限于服务器,并且保持了基站和其它系统节点的后向兼容性。如果仅在发射机或接收机中实现,则也保持了不同客户机之间的后向兼容性。
[0079]虽然已经描述了实用和优选实施例,但是大家要理解,本发明不是要限制为任何公开的实施例,相反,意在涵盖所附权利要求的范围内包含的各种修改和等效配置。
Claims (47)
1.一种增强包括一个或多个声音信号的用户通信中的感知交互性的方法,其特征在于:
识别用户通信中的声音信号;
基于所识别声音信号来确定声音信号段;
确定所述用户通信中的所述声音信号段的长度应当被修改;以及
修改所述声音信号段的一部分以增强所述用户通信中的感知交互性。
2.如权利要求1所述的方法,其特征在于,所述声音信号段基于所识别声音信号的一部分、所识别声音信号的修改形式或者与所识别声音信号关联的信号。
3.如权利要求1所述的方法,其特征在于,所述声音信号段包括所述声音信号的一部分的一个或多个样本或者描述所述声音信号的一部分的一个或多个参数。
4.如权利要求1所述的方法,其特征在于,所述声音信号包括语音信号、所述用户通信中的静寂周期或者背景噪声。
5.如权利要求4所述的方法,其特征在于,语音声音信号可以是单词、句子或多个句子。
6.如权利要求4所述的方法,其特征在于,所述用户通信是按键讲话(PTT)通信,以及PTT通信中的语音声音信号是从发起PTT通信到结束PTT通信所接收的声音信号。
7.如权利要求1所述的方法,其特征在于,所述修改包括修改所述声音信号段的长度或持续时间。
8.如权利要求1所述的方法,其特征在于,所述修改包括删除所述声音信号段的一部分、把声音部分插入所述声音信号段、或者删除所述声音信号段的一部分并把声音部分插入所述声音信号段。
9.如权利要求1所述的方法,其特征在于,所述修改包括缩短所述声音信号段、延长所述声音信号段、或者缩短并延长所述声音信号段。
10.如权利要求1所述的方法,其特征在于,所述修改包括添加声音信号样本、删除声音信号样本、或者添加并删除声音信号样本。
11.如权利要求1所述的方法,其特征在于,所述声音信号被压缩,以及所述修改包括修改压缩器剩余部分的长度。
12.如权利要求11所述的方法,其特征在于,所述声音信号采用线性预测编码(LPC)算法来压缩,以及所述修改包括添加LPC剩余样本、删除LPC剩余样本、或者添加并删除LPC剩余样本。
13.如权利要求1所述的方法,其特征在于,所述修改包括通过添加或删除舒适噪声或者通过进行这两种操作来修改所述声音信号段中的静寂或背景噪声的长度或持续时间。
14.如权利要求1所述的方法,其特征在于,所述修改包括修改从静寂描述符(SID)帧所产生的声音信号段的长度或持续时间。
15.如权利要求1所述的方法,其特征在于,所述修改包括添加音调周期、删除音调周期、或者添加并删除音调周期。
16.如权利要求1所述的方法,其特征在于,所述修改包括通过减少所述声音信号段的播出时间、在对所述声音信号段进行编码之前减少所述声音信号段的长度、或者删除所述声音信号段的静寂或背景噪声来缩短所述声音信号段的结束。
17.如权利要求1所述的方法,其特征在于,所述修改包括通过在用户连接被建立之前或者在允许发送所述声音信号段之前开始记录或缓冲所述声音信号段来延长所述声音信号段的开始。
18.如权利要求1所述的方法,其特征在于,所述修改包括在接收机中通过在产生所述声音信号段之前开始产生背景噪声或者通过在产生所述声音信号段之前开始产生预先记录信号或者来自一个或多个存储参数的信号来延长所述声音信号段的开始。
19.如权利要求1所述的方法,其特征在于,所述增强的感知交互性包括减少人发送所述用户通信直至那个人接收到响应所感知的时延。
20.如权利要求1所述的方法,其特征在于,所述增强的感知交互性在不必减少实际用户通信连接建立时间或者实际用户通信传输延迟的情况下实现。
21.如权利要求1所述的方法,其特征在于,所述用户通信是半双工通信、全双工通信或者单工通信。
22.如权利要求1所述的方法,适用于数字无线电通信系统中的无线电通信,并且在移动无线电、无线电网络节点中或者在移动无线电和无线电网络节点这两者中实现。
23.如权利要求1所述的方法,其特征在于,所述修改在与发送所述声音信号关联的发射机上或者在与接收所述声音信号关联的接收机上发生。
24.如权利要求1所述的方法,其特征在于,所述修改在网络服务器上以及在与发送所述声音信号关联的发射机上或者在与接收所述声音信号关联的接收机上发生。
25.用于增强包括一个或多个声音信号的用户通信中的感知交互性的设备,包括配置成识别所述用户通信中的声音信号的声音信号分析电路(40,50或60),其特征在于:
所述声音信号分析电路(40,50或60)配置成基于所识别声音信号来确定声音信号段,以及确定所述用户通信中的所述声音信号段的长度应当被修改,以及
修改电路(38,42,44,52,54或56),配置成修改所述声音信号段的一部分以增强所述用户通信中的所述感知交互性。
26.如权利要求25所述的设备,其特征在于,所述声音信号段基于所识别声音信号的一部分、所识别声音信号的修改形式、或者与所识别声音信号关联的信号。
27.如权利要求25所述的设备,其特征在于,所述声音信号段包括所述声音信号的一部分的一个或多个样本或者描述所述声音信号的一部分的一个或多个参数。
28.如权利要求25所述的设备,其特征在于,所述声音信号包括语音信号、所述用户通信中的静寂周期或者背景噪声。
29.如权利要求28所述的设备,其特征在于,语音声音信号可以是单词、句子或多个句子。
30.如权利要求29所述的设备,其特征在于,所述用户通信是按键讲话(PTT)通信,以及PTT通信中的语音声音信号是从发起PTT通信到结束PTT通信所接收的声音信号。
31.如权利要求25所述的设备,其特征在于,所述修改电路(38,42,44,52,54或56)还配置成修改所述声音信号段的长度或持续时间。
32.如权利要求25所述的设备,其特征在于,所述修改电路(38,42,44,52,54或56)还配置成删除所述声音信号段的一部分、把声音部分插入所述声音信号段、或者删除所述声音信号段的一部分并把声音部分插入所述声音信号段。
33.如权利要求25所述的设备,其特征在于,所述修改电路(38,42,44,52,54或56)还配置成缩短所述声音信号段、延长所述声音信号段、或者缩短并延长所述声音信号段。
34.如权利要求25所述的设备,其特征在于,所述修改电路(38,42,44,52,54或56)还配置成添加声音信号样本、删除声音信号样本、或者添加并删除声音信号样本。
35.如权利要求25所述的设备,其特征在于,所述声音信号被压缩,以及所述修改电路(38,42,44,52,54或56)还配置成修改压缩器剩余部分的长度。
36.如权利要求25所述的设备,其特征在于,所述声音信号采用线性预测编码(LPC)算法来压缩,以及所述修改电路(38,42,44,52,54或56)还配置成添加LPC剩余样本、删除LPC剩余样本、或者添加并删除LPC剩余样本。
37.如权利要求25所述的设备,其特征在于,所述修改电路(38,42,44,52,54或56)还配置成通过添加或删除舒适噪声或者通过进行这两种操作来修改所述声音信号段中的静寂或背景噪声的长度或持续时间。
38.如权利要求25所述的设备,其特征在于,所述修改电路(38,42,44,52,54或56)还配置成修改从静寂描述符(SID)帧中所产生的声音信号段的长度或持续时间。
39.如权利要求25所述的设备,其特征在于,所述修改电路(38,42,44,52,54或56)还配置成添加音调周期、删除音调周期、或者添加并删除音调周期。
40.如权利要求25所述的设备,其特征在于,所述修改电路(38,42,44,52,54或56)还配置成在不必减少实际用户通信连接建立时间或者实际用户通信传输延迟的情况下实现所述增强的感知交互性。
41.如权利要求25所述的设备,适用于数字无线电通信系统中的无线电通信,并且在移动无线电、无线电网络节点中或者在移动无线电和无线电网络节点这两者中实现。
42.如权利要求25所述的设备,其特征在于,还包括:
信令电路,配置成向包括所述修改电路的一个或多个实体发送足够信息,以便允许所述一个或多个实体进行所述修改。
43.如权利要求25所述的设备,其特征在于,所述修改电路(38,42,44)设置在发射机(32)中,用于发送所述声音信号。
44.如权利要求43所述的设备,其特征在于,所述修改电路设置在所述发射机(32)中的编码器(42)中。
45.如权利要求25所述的设备,其特征在于,所述修改电路(52,54,56)设置在接收机(36)中,用于接收所述声音信号。
46.如权利要求45所述的设备,其特征在于,所述修改电路设置在所述接收机(36)中的解码器(56)中。
47.如权利要求25所述的设备,其特征在于,所述修改电路设置在网络服务器(34)上以及在用于发送所述声音信号的发射机(32)上或者在网络服务器上以及在与接收所述声音信号关联的接收机(36)上。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/819,376 | 2004-04-07 | ||
US10/819,376 US20050227657A1 (en) | 2004-04-07 | 2004-04-07 | Method and apparatus for increasing perceived interactivity in communications systems |
PCT/SE2005/000465 WO2005099190A1 (en) | 2004-04-07 | 2005-03-29 | Method and apparatus for increasing perceived interactivity in communications systems |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1943189A true CN1943189A (zh) | 2007-04-04 |
CN1943189B CN1943189B (zh) | 2011-11-16 |
Family
ID=35061208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2005800120055A Expired - Fee Related CN1943189B (zh) | 2004-04-07 | 2005-03-29 | 增加通信系统中所感知交互性的方法及设备 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20050227657A1 (zh) |
EP (1) | EP1735968B1 (zh) |
CN (1) | CN1943189B (zh) |
WO (1) | WO2005099190A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105409256A (zh) * | 2013-07-23 | 2016-03-16 | 科科通信公司 | 用于通过ip电话网络的即按即说语音通信的系统和方法 |
CN108288973A (zh) * | 2017-01-10 | 2018-07-17 | 朴相来 | 可穿戴式无线通信设备及使用其的通信组设置方法 |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7295853B2 (en) * | 2004-06-30 | 2007-11-13 | Research In Motion Limited | Methods and apparatus for the immediate acceptance and queuing of voice data for PTT communications |
KR100652655B1 (ko) * | 2004-08-11 | 2006-12-06 | 엘지전자 주식회사 | 발언권 제어를 위한 피티티 서비스 시스템 및 방법 |
US7911945B2 (en) | 2004-08-12 | 2011-03-22 | Nokia Corporation | Apparatus and method for efficiently supporting VoIP in a wireless communication system |
US7463901B2 (en) * | 2004-08-13 | 2008-12-09 | Telefonaktiebolaget Lm Ericsson (Publ) | Interoperability for wireless user devices with different speech processing formats |
WO2006029306A1 (en) * | 2004-09-09 | 2006-03-16 | Interoperability Technologies Group Llc | Method and system for communication system interoperability |
US8559466B2 (en) * | 2004-09-28 | 2013-10-15 | Intel Corporation | Selecting discard packets in receiver for voice over packet network |
US7558286B2 (en) * | 2004-10-22 | 2009-07-07 | Sonim Technologies, Inc. | Method of scheduling data and signaling packets for push-to-talk over cellular networks |
US7830920B2 (en) * | 2004-12-21 | 2010-11-09 | Sony Ericsson Mobile Communications Ab | System and method for enhancing audio quality for IP based systems using an AMR payload format |
EP1840877A4 (en) * | 2005-01-18 | 2008-05-21 | Fujitsu Ltd | ELOCUTION SPEED CHANGING METHOD AND ELOCUTION SPEED CHANGING DEVICE |
KR100810222B1 (ko) * | 2005-02-01 | 2008-03-07 | 삼성전자주식회사 | 셀룰러 기반의 푸쉬 투 토크에서 전 이중 통화 제공 방법및 시스템 |
US20060211383A1 (en) * | 2005-03-18 | 2006-09-21 | Schwenke Derek L | Push-to-talk wireless telephony |
KR100789902B1 (ko) * | 2005-12-09 | 2008-01-02 | 한국전자통신연구원 | 다중 프레임을 갖는 브이오아이피 패킷 처리 장치 및 그방법 |
US8578046B2 (en) * | 2005-10-20 | 2013-11-05 | Qualcomm Incorporated | System and method for adaptive media bundling for voice over internet protocol applications |
US8117032B2 (en) * | 2005-11-09 | 2012-02-14 | Nuance Communications, Inc. | Noise playback enhancement of prerecorded audio for speech recognition operations |
EP1892916A1 (en) | 2006-02-22 | 2008-02-27 | BenQ Mobile GmbH & Co. oHG | Method for signal transmission, transmitting apparatus and communication system |
WO2007124480A2 (en) * | 2006-04-21 | 2007-11-01 | Sonim Technologies, Inc. | System and method for enabling conversational-style in simplex based sessions |
US7751543B1 (en) | 2006-05-02 | 2010-07-06 | Nextel Communications Inc, | System and method for button-independent dispatch communications |
WO2008069722A2 (en) * | 2006-12-08 | 2008-06-12 | Telefonaktiebolaget Lm Ericsson (Publ) | Receiver actions and implementations for efficient media handling |
US7616936B2 (en) * | 2006-12-14 | 2009-11-10 | Cisco Technology, Inc. | Push-to-talk system with enhanced noise reduction |
KR101414233B1 (ko) * | 2007-01-05 | 2014-07-02 | 삼성전자 주식회사 | 음성 신호의 명료도를 향상시키는 장치 및 방법 |
US8619642B2 (en) * | 2007-03-27 | 2013-12-31 | Cisco Technology, Inc. | Controlling a jitter buffer |
US20080267224A1 (en) * | 2007-04-24 | 2008-10-30 | Rohit Kapoor | Method and apparatus for modifying playback timing of talkspurts within a sentence without affecting intelligibility |
WO2009054762A1 (en) * | 2007-10-25 | 2009-04-30 | Telefonaktiebolaget Lm Ericsson (Publ) | Methods and arrangements in a radio communication system |
EP2408165B1 (en) * | 2010-07-14 | 2012-10-03 | Google, Inc. | Method and receiver for reliable detection of the status of an RTP packet stream |
US8929290B2 (en) | 2011-08-26 | 2015-01-06 | Qualcomm Incorporated | In-band signaling to indicate end of data stream and update user context |
US10735486B2 (en) | 2012-12-28 | 2020-08-04 | Qualcomm Incorporated | Device timing adjustments and methods for supporting dash over broadcast |
US9462426B1 (en) * | 2015-04-03 | 2016-10-04 | Cisco Technology, Inc. | System and method for identifying talk burst sources |
US11227579B2 (en) * | 2019-08-08 | 2022-01-18 | International Business Machines Corporation | Data augmentation by frame insertion for speech data |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3723667A (en) | 1972-01-03 | 1973-03-27 | Pkm Corp | Apparatus for speech compression |
US5157728A (en) * | 1990-10-01 | 1992-10-20 | Motorola, Inc. | Automatic length-reducing audio delay line |
WO1993009531A1 (en) | 1991-10-30 | 1993-05-13 | Peter John Charles Spurgeon | Processing of electrical and audio signals |
US5717823A (en) * | 1994-04-14 | 1998-02-10 | Lucent Technologies Inc. | Speech-rate modification for linear-prediction based analysis-by-synthesis speech coders |
MX9706532A (es) * | 1995-02-28 | 1997-11-29 | Motorola Inc | Metodo y aparato para la compresion de la voz en un sistema de comunicacion. |
EP1000499B1 (en) * | 1997-07-31 | 2008-12-31 | Cisco Technology, Inc. | Generation of voice messages |
EP0947068A2 (en) * | 1997-09-10 | 1999-10-06 | Cellon France SAS | A communication system and a terminal |
US6370163B1 (en) * | 1998-03-11 | 2002-04-09 | Siemens Information And Communications Network, Inc. | Apparatus and method for speech transport with adaptive packet size |
US6687668B2 (en) * | 1999-12-31 | 2004-02-03 | C & S Technology Co., Ltd. | Method for improvement of G.723.1 processing time and speech quality and for reduction of bit rate in CELP vocoder and CELP vococer using the same |
JP4212230B2 (ja) * | 2000-10-31 | 2009-01-21 | 富士通株式会社 | メディア通信システム及び該システムにおける端末装置 |
US7006511B2 (en) * | 2001-07-17 | 2006-02-28 | Avaya Technology Corp. | Dynamic jitter buffering for voice-over-IP and other packet-based communication systems |
US6882971B2 (en) * | 2002-07-18 | 2005-04-19 | General Instrument Corporation | Method and apparatus for improving listener differentiation of talkers during a conference call |
US6763226B1 (en) * | 2002-07-31 | 2004-07-13 | Computer Science Central, Inc. | Multifunctional world wide walkie talkie, a tri-frequency cellular-satellite wireless instant messenger computer and network for establishing global wireless volp quality of service (qos) communications, unified messaging, and video conferencing via the internet |
ATE352837T1 (de) * | 2002-09-17 | 2007-02-15 | Koninkl Philips Electronics Nv | Verfahren zur steuerung der dauer bei der sprachsynthese |
JP4205445B2 (ja) * | 2003-01-24 | 2009-01-07 | 株式会社日立コミュニケーションテクノロジー | 交換装置 |
JP2004297287A (ja) * | 2003-03-26 | 2004-10-21 | Agilent Technologies Japan Ltd | 通話品質評価システム、および、該通話品質評価のための装置 |
US7337108B2 (en) * | 2003-09-10 | 2008-02-26 | Microsoft Corporation | System and method for providing high-quality stretching and compression of a digital audio signal |
US7359324B1 (en) * | 2004-03-09 | 2008-04-15 | Nortel Networks Limited | Adaptive jitter buffer control |
-
2004
- 2004-04-07 US US10/819,376 patent/US20050227657A1/en not_active Abandoned
-
2005
- 2005-03-29 CN CN2005800120055A patent/CN1943189B/zh not_active Expired - Fee Related
- 2005-03-29 WO PCT/SE2005/000465 patent/WO2005099190A1/en not_active Application Discontinuation
- 2005-03-29 EP EP05722290.3A patent/EP1735968B1/en not_active Not-in-force
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105409256A (zh) * | 2013-07-23 | 2016-03-16 | 科科通信公司 | 用于通过ip电话网络的即按即说语音通信的系统和方法 |
CN105409256B (zh) * | 2013-07-23 | 2019-06-14 | 联合公司 | 用于通过ip电话网络的即按即说语音通信的系统和方法 |
CN108288973A (zh) * | 2017-01-10 | 2018-07-17 | 朴相来 | 可穿戴式无线通信设备及使用其的通信组设置方法 |
Also Published As
Publication number | Publication date |
---|---|
CN1943189B (zh) | 2011-11-16 |
WO2005099190A1 (en) | 2005-10-20 |
EP1735968A1 (en) | 2006-12-27 |
EP1735968B1 (en) | 2014-09-10 |
US20050227657A1 (en) | 2005-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1943189A (zh) | 增加通信系统中所感知交互性的方法及设备 | |
CN106537831B (zh) | 基于冗余的包发射错误恢复的系统和方法 | |
KR101353847B1 (ko) | 반향 검출 방법 및 장치 | |
US10885921B2 (en) | Multi-stream audio coding | |
US7680099B2 (en) | Jitter buffer adjustment | |
CN1947407A (zh) | 音频通信方法和装置 | |
KR101468458B1 (ko) | 멀티 포인트 환경에서의 스케일러블 오디오 | |
CN1242594C (zh) | 语音处理方法和语音处理设备 | |
CN101336450B (zh) | 在无线通信系统中用于语音编码的方法和装置 | |
US10469630B2 (en) | Embedded RTCP packets | |
US9729287B2 (en) | Codec with variable packet size | |
CN1311424C (zh) | 音频数据内插、关联信息制作、内插信息发送装置和方法 | |
CN101790754B (zh) | 用于提供amr-wb dtx同步的系统和方法 | |
CN1436416A (zh) | 通过分组交换网络的传输 | |
JP4330346B2 (ja) | 音声符号に対するデータ埋め込み/抽出方法および装置並びにシステム | |
JP4513514B2 (ja) | 多地点通話システム、携帯端末装置及びそれらに用いる音量調整方法並びにそのプログラム | |
US20120095760A1 (en) | Apparatus, a method and a computer program for coding | |
CN1303580C (zh) | 处理语音信号的装置、方法以及传送语音的方法及其装置 | |
JP2006222893A (ja) | Dtmf信号処理方法、処理装置、中継装置、及び通信端末装置 | |
EP1526511A1 (fr) | Terminal de téléphonie à gestion, en réception, de la qualité de restitution vocale | |
JP4120440B2 (ja) | 通信処理装置、および通信処理方法、並びにコンピュータ・プログラム | |
WO2021047763A1 (en) | Transmission of a representation of a speech signal | |
EP1475929A1 (en) | Control component removing encoded frames from isochronous telecommunication stream | |
JP2009204815A (ja) | 無線通信装置、無線通信方法および無線通信システム | |
Hardman et al. | Internet/Mbone Audio |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20111116 Termination date: 20190329 |
|
CF01 | Termination of patent right due to non-payment of annual fee |