CN1656366A - 数字网络系统中用于控制终端设备的传输的方法 - Google Patents
数字网络系统中用于控制终端设备的传输的方法 Download PDFInfo
- Publication number
- CN1656366A CN1656366A CNA038121530A CN03812153A CN1656366A CN 1656366 A CN1656366 A CN 1656366A CN A038121530 A CNA038121530 A CN A038121530A CN 03812153 A CN03812153 A CN 03812153A CN 1656366 A CN1656366 A CN 1656366A
- Authority
- CN
- China
- Prior art keywords
- transmission
- function
- terminal device
- feature
- vre
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005540 biological transmission Effects 0.000 title claims abstract description 81
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000005236 sound signal Effects 0.000 claims abstract description 40
- 238000001514 detection method Methods 0.000 claims abstract description 8
- 230000003213 activating effect Effects 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 57
- 230000004913 activation Effects 0.000 claims description 13
- 230000009849 deactivation Effects 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 7
- 230000005055 memory storage Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract 1
- 238000004891 communication Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 7
- 230000000630 rising effect Effects 0.000 description 6
- 230000007704 transition Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000001976 improved effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- ZPUCINDJVBIVPJ-LJISPDSOSA-N cocaine Chemical compound O([C@H]1C[C@@H]2CC[C@@H](N2C)[C@H]1C(=O)OC)C(=O)C1=CC=CC=C1 ZPUCINDJVBIVPJ-LJISPDSOSA-N 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- AFCARXCZXQIEQB-UHFFFAOYSA-N N-[3-oxo-3-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)propyl]-2-[[3-(trifluoromethoxy)phenyl]methylamino]pyrimidine-5-carboxamide Chemical compound O=C(CCNC(=O)C=1C=NC(=NC=1)NCC1=CC(=CC=C1)OC(F)(F)F)N1CC2=C(CC1)NN=N2 AFCARXCZXQIEQB-UHFFFAOYSA-N 0.000 description 1
- 206010038743 Restlessness Diseases 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000005039 memory span Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000008093 supporting effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/66—Arrangements for connecting between networks having differing types of switching systems, e.g. gateways
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/38—Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
- H04B1/40—Circuits
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/06—Selective distribution of broadcast services, e.g. multimedia broadcast multicast service [MBMS]; Services to user groups; One-way selective calling services
- H04W4/10—Push-to-Talk [PTT] or Push-On-Call services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W76/00—Connection management
- H04W76/40—Connection management for selective distribution or broadcast
- H04W76/45—Connection management for selective distribution or broadcast for Push-to-Talk [PTT] or Push-to-Talk over cellular [PoC] services
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Mobile Radio Communication Systems (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及数字网络系统(27)中用于控制终端设备(10)的传输的方法。终端设备(10)包括PTT(按讲)功能,以便至少激活要向所述网络系统进行的传输,其中用于语音控制所述PTT功能的终端设备(10)还包括VOX(声控传输)特征,它可以被激活/去活并通过VRE(语音识别引擎)功能(23)实现。在该方法中执行以下步骤:使用VRE功能(23)从音频信号中搜索建立的关键字(406,407);从音频信号中识别建立的关键字(408);向网络系统(27)请求发送转变(409);从网络系统(27)接收发送转变(412);连接传输并指示准予的发送转变(413,414);进行传输(415);以及去活传输(419)。在所述VRE功能(23)之前的所述VOX特征中,通过被安排与终端设备(10)连接的VAD(话音激活检测)功能(22)来监视(25)音频信号,由此在终端设备(10)中激活所述VOX特征(401,402)时,在所述部分步骤(406-419)之前执行以下步骤:通过VAD功能(22)处理终端设备(10)的输入音频信号,从中搜索按照建立的准则的信号形式(404,405);以及当在音频信号中检测到按照建立的准则的信号形式时,激活所述VRE功能以搜索建立的关键字(405,406)。
Description
本发明涉及数字网络系统中用于控制终端设备的传输的方法,该终端设备包括PTT(按讲(Push-to-Talk))功能,以便至少激活要向所述网络系统进行的传输,其中用于语音控制所述PTT功能的终端设备还包括VOX(声控传输)功能,它被激活/去活,并通过VRE(语音识别引擎)功能实现,在所述方法中包括以下步骤:
-使用VRE功能以从音频信号中搜索建立的关键字,
-从音频信号中识别建立的关键字,
-向网络系统请求发送转变,
-从网络系统接收发送转变,
-连接传输并指示准予的发送转变
-执行传输,以及
-去活传输。
本发明还可用于PoC(基于蜂窝的按讲)语音服务系统。
在诸如TETRA(地面集群无线电)系统的数字无线电网络系统中,从系统容量的观点来看,半双工通信代表了一种有效通信模式。系统容量中通常的瓶颈是有限的带宽和系统的处理能力。为了进行半双工通信,对于从基站收发信台到终端设备的广播只需要一个下行业务信道,对于发送终端设备需要一个上行业务信道。上述信道上的通信是通过所谓的广播,即使消息仅打算供给其中一个终端设备,TETRA交换中心也是向所有终端设备发送。为了安排上行业务,通常需要一定的集群方法,用于组织终端设备的传输。
可是,在半双工通信中要求在系统中一次只有一个发送方。通常通过终端设备的PTT(按讲)开关来满足上述要求,用户必须在希望发送时按压该开关。按压PTT开关产生发送转变的请求,基于该请求,TETRA交换中心的集群系统根据讲话转变指示算法一次准予一方讲话转变。
成组和直接专用呼叫(个人半双工)中,参与半双工通信的所有方在其转为讲话之前也必须在例如管理机构使用的TETRA系统中请求和得到其发送转变。传统上,这通过利用终端设备的PTT开关来实现。可是,这种方法实质上限制了通信期间终端设备的用户的行动,因为他必须用一只手来按压PTT开关。
在办公室和现场条件下存在几种实际上要两只手腾出的实际情况。这种情况的例子有在车辆中进行通信,诸如在驾驶摩托车和汽车时,以及例如在电工进行电器安装的情况下,电工需要两只手进行安装或进行其它此类测量。
而且,两只手必须腾出的类似情况还出现在与支持PoC特征/服务的终端设备的连接中。PoC特征的特点在于,它作为已知的双工无线电服务来实施。终端设备的用户可以处在持续连接中,实际上与其自己的组讲话,尽管如此,连接的维护不会在所有时候保持传输信道忙。
当使用PoC特征时,用户按压其终端设备的听筒的传输键,于是他可以立即说出待发送的消息。与该用户属于同一组的所有方,在传输时连接到数据通信网络,例如通过分组连接(诸如GPRS),将听到上述消息。PoC特征还至少支持两种传输模式。在第一模式下,其中一方可以将组呼指向其他方,而在第二模式下,其中一方可以将直呼指向另外一方。
除上述业务情况外,在使用PoC特征时需要自由使用两只手的情况例如在玩网络游戏时会出现。由此,玩家在游戏进行中向其他方提供评论。按照现有技术水平,必须进行手工连接,以便进行传输。另一个问题是,用户在组呼进行时不容易与另外某一方进行专用通信。
VOX功能、即声控传输,是从用在半双工通信中的终端设备的某种模拟PMR(专用移动无线电台)已知的特征。其中,VOX特征允许不用手工按压PTT开关来请求讲话转变。
从DTX(间断传输)的实现中得知VAD(话音激活检测)的使用。由此,在呼叫期间通过VAD在麦克风信号中没有检测到话音时,终端设备也未用于发送与这些无声时刻对应的整个上行突发。该功能用于节省传输功率的持续时间,由此延长终端设备的有效工作时间。
有些类型的移动台终端设备现在配备了讲话检测特征。其中,用户可以通过发出其已经定义的命令,诸如被叫方名字“Charlie”,来控制终端设备。由于该命令,终端设备激活被叫方(Charlie)的用户身份。按照用户选择,由命令激活的用户身份可以通过按压一个键来确认,或者,终端设备还可以不用用户一方采取任何动作而呼叫上述命令所激活的所述方的用户身份。
由于持续消耗激活的音频部分的电流,诸如处理音频数据的处理器的电流,这非常不利,特别是根据基于程序的解决方案在移动终端设备中实现这种VOX功能,它经常遇到输入音频信号并检测讲话或者其中的个别字。
已经建议了许多实现VOX的方法,但这些方法通常是基于硬件级的解决方案,诸如集成附加VOX电路或者分离电路图。这种解决方案的缺点是元件成本增加、元件需要额外空间、终端设备的较大备用空间显然还增加电流消耗。基于软件的实现也是已知的,诸如上述持续音频监视。增加的电流消耗也限制了它们在移动终端设备中的使用。然而,这些解决方案可以用在汽车配件中,其中电流消耗不是主要问题。
关于现有技术水平,参见PCT公开WO-96/11529和美国专利US5912882。WO 96/11529给出了利用语音识别功能激活无线电电话的传输。其中,终端设备连续识别音频数据中的关键字。可是,在使用基于字的识别的语音识别(VRE)功能来激活传输的连接时,极大地消耗功率,特别是在移动终端设备中,这是一个实际问题。
公布US 5912882给出了PSTN网络中专用通信系统的实现。其中提到了通过语音控制激活PTT设施。可是,这不是真正的数字网络系统,而是在从无线网络(CDMA)向电话网络(PSTN)移动时,信号经过DA转换。可是,通过语音识别来激活PTT功能完全不用在实际情况中,因为传输大体上由可识别为语音或者通常例如讲话的每一个音频信号来激活。另外,通过检测暂停、即预先设置的持续时间,执行PTT的去活。
考虑所有情况,特别是在移动终端设备中,例如尤其在数字集群系统中,其中终端设备为了讲话转变必须向集群系统发出请求,通过现有技术的解决方案难以得到起作用的、尤其是可靠有效的VOX功能。
本发明的目的是提供实质上更加有利、更加用户友好和更加可靠的方法,用于控制数字网络系统中终端设备的传输。按照本发明的方法的特征在权利要求1中给出。
按照本发明的方法,有可能通过最好按照本发明的方法用于检测音频信号或在该信号中搜索一个或一个以上关键字的现有VAD(话音激活检测)和VRE(语音识别引擎)算法,在每一个终端设备中以其最简单形式实现VOX特征。根据正使用的网络系统,VRE功能可以简单地通过音频DSP(数字信号处理)算法来实现,并且它可以用于在音频信号中检测讲话转变请求,以及一般是激活传输的关键字。
激活上述特征可以通过特定UI(用户接口)概念来完成,这允许其灵活的开/关切换。实际上,这意味着,终端设备的用户必须以某种方式首先激活VOX特征,于是上述特征例如在所设置的时段里有效,对于一个逻辑序列有效,或者视用户在UI中进行的选择而定。
按照本发明的方法从本质上改进了半双工业务中终端设备的可用性。在诸如TETRA的集群系统中得到好处。通过所讨论的特征,在PoC组通信中也得到一些好处,PoC组通信是为所有基于IP(All-IP-based)的系统而设计的VoIP(基于因特网协议的话音)专业通话服务的一个实施例。它们的目标之一是控制例如通过GPRS系统的作为IP数据包传输的谈话。
在完全基于软件而不用任何附加设备或设置在终端设备中的组件来实现时,作为VAD和VRE功能的组合的VOX特征显著地降低了可变成本,降低了终端设备的印刷电路板的尺寸,特别是降低了基本电流消耗。当按照上述方法实现时,上述特征可以有利地在现有的已知产品平台上实现,因为它们的音频部分通常包括所需的VAD和VRE功能。基于软件的解决方案和用户接口概念给出按照用户需要来配置与诸如其开/关特征的功能有关的设置、激活和去活设置的多种可能性。
按照一个实施例,按照本发明的方法例如还可用于上述PoC组通信。由此,所述概念可以不同于集群系统,例如关于讲话类型和讲话转变的分配。在PoC组通信中,除所述传输激活外,按照本发明的方法可以用作附加应用形式,用于接收者的组合选择。
通过按照本发明的方法得到的其他优点从说明书部分可看出,而从权利要求书可看出本发明的特征。
按照本发明的方法不限于后面给出的实施例,以下将结合附图进行详细描述,附图中:
图1示出终端设备的功能部分的示例,
图2示出按照本发明的方法的应用的示例,
图3a和3b是流程图,示出按照本发明的方法的实施例的示例,
图4a和4b是流程图,示出按照本发明的方法的另一个实施例的示例,以及
图5示出按照本发明的方法的应用的另一个示例。
图1示出实现按照本发明的方法的数字终端设备10的功能部分的示例。发送机-接收机电路19被安排与终端设备10的处理器单元18连接,且连接天线25,天线25用于执行和接收传输。而且,与处理器单元18连接的有终端设备10的键盘11、导航和选择键15、开关以及可能的SIM(用户身份模块)卡16。其中,用于控制可能出现的发送转变请求和控制传输的PTT开关26也属于所述开关。
终端设备10可以包括LCD显示器21,LCD显示器21被安排成与显示器控制器13连接,显示器控制器13还与处理器单元18连接。而且,安排RAM存储器17a、可更新ROM存储器17b以及音频部分14与处理器单元18连接,音频部分14被安排成与例如已知类型的扬声器和麦克风装置12、20a连接,以及与可能的蜂鸣器20b连接。应该指出,图1中所示的终端设备10的功能部分是通过示例大致给出的。例如,终端设备10可按照其类型以许多不同方式实现,而这些对本领域技术人员来说是明显的。
对于按照本发明的方法,有必要例如在终端设备10的音频部分14中安排算法模块22、即语音检测,作为实现VAD功能的软件子部件。按照更加改进的实施例,除VAD模块22外,音频部分14的功能性还包括DSP模块作为子部件,DSP模块包括VRE功能23、即语音识别。
以下将结合图2、3a和3b描述本发明的有利实施例。图2是按照本发明的方法的应用的示意图。用户A、B和C例如可以是现场巡逻的警察或一些其它代表,如管理机构、工商企业或公共运输部门,它们有按照图1所示功能的终端设备。按照一个实施例,终端设备10用于工作在基于数字集群系统的网络系统中,诸如在TETRA27中。它是典型的集群系统,在终端设备10向集群系统要求发送转变时,系统的SwMI(交换和管理基础设施)将按照建立的准则分配发送转变。这样的准则例如可以是请求指令、用户A、B、C的优先级及其终端设备10的传输的激活类型(例如紧急呼叫对普通讲话转变)。
图3a和3b是流程图,示出集群系统中按照本发明的方法的有利实施例。用户A、B、C激活VOX特征,例如通过开/关设置从TETRA终端设备10的用户接口UI手工激活(301)。在此之后,终端设备10通过短暂按压PTT开关(持续时间<500ms)激活组消息传输(302)。一激活VOX特征,就发出信号音或诸如信号光之类的其它通知,例如通过终端设备的蜂鸣器20b来发出(303)。
当按照本发明的方法实现的VOX特征激活时,音频路径在所有时间保持开通。通过麦克风20a到达的音频信号以已知为类似VAD算法的方式无中断地被处理(304),VAD算法用于按照建立的准则对音频信号搜索信号形式,诸如终端设备的用户的可能讲话(305)。如果必要,可以调整VAD模块22和麦克风20a的灵敏度,以免例如由强背景声音连接的任何伪传输。按照本发明的方法,VAD功能22用于寻找通过麦克风20a到达的音频信号中的讲话的开始点。通过与VAD模块22配合的VAD算法,在通过麦克风20a到达的音频信号中检测信号电平的任何上升,所述上升可以是讲话。不可能通过VAD功能22从声音中区分讲话或个别字。
在仅基于VAD功能22的第一实施例中,用户A、B、C的可以激活发送转变请求的第一个字必须是除要用于传输的真正讲话之外的内容。在他的发言发出之前,用户A、B、C必须说出例如字“VOX”或者任何其它字或声音。由此,VAD 22检测可能的传输,并向网络系统的交换中心28发出发送转变请求(306)。安排在交换中心28中的SwMI处理发送转变请求(307),如果那时在用户A、B、C构成的组中没有业务,则SwMI通常几乎立即会将发送转变准许给请求终端设备10(308)。如果在组中有许多业务,则例如根据用户A、B、C发送请求的优先级,用户必须等待其发送转变。终端设备10接收发送许可(309),以下将详细说明接下来的部分步骤(310-317)。
在基于VAD功能22的一个实施例中,用户A、B、C说出激活VOX特征的命令“VOX”,然后立即说出他希望发送的消息,从消息的开始可能遗漏一些字。避免这种情况的一种方式是保留更多的存储空间,以便缓冲麦克风讲话。可是,在这种情况下,会出现较长的讲话延迟,可能不小于几十毫秒。在仅基于VAD功能的解决方案中,由强背景声音激活的传输是一个重大的缺陷。
图4a和4b中示出实现按照本发明的方法的另一个更加有利的方式。这采用上述VAD功能22,并且结合了VRE功能23,即字识别。用户A、B、C例如通过开/关设置从TETRA终端设备10的用户接口UI手工激活VOX特征(401)。此动作之后,终端设备10通过短暂按压PTT开关(持续时间<500ms)激活组消息传输(402)。一激活VOX特征,就利用例如终端设备10的蜂鸣器20b发出信号声或其它通知、例如提示光信号(403)。
当按照本发明的方法实现的VOX特征激活时,音频路径在所有时间保持开通。通过麦克风20a到达的音频信号以已知的方式通过VAD算法无中断地处理(404),VAD算法用于按照建立的准则搜索信号格式,诸如终端设备的用户的可能讲话(405)。需要时,可以调整VAD模块22和麦克风20a的灵敏度,以免例如由强背景噪声打开的错误传输。这样,按照本发明的方法,VAD功能22用于搜索通过麦克风20a到达的音频信号中的讲话的开始点。适合与VAD模块22结合的VAD算法用于检测通过麦克风20a进来的音频信号中的信号电平的上升,所述上升可以是讲话。VAD功能22不能用于区分声音中讲话或个别字。
当VAD功能22第一次在音频信号中检测到用户A、B、C可能要输入麦克风20a的信号时(1°),激活终端设备10的语音识别功能VRE 23(406)。
在语音识别23中,在通过麦克风20a进来的讲话中搜索例如说话“VOX”或其它实质上预定的关键字(408)。在所设置的时段中没有找到所设置的关键字的情况下,该过程例如可以返回到步骤(405)以找出在音频路径中是否存在任何可以理解为语音的信号。如果存在的话,该过程沿路线(2°)直接到步骤(407)。
在语音识别23找到正确的关键字之后,终端设备10将向集群系统的SwMI 34发送有关发送转变的请求(409),对应于把PTT开关26按压到底,就象现在做的那样。
SwMI 34处理发送转变请求(410),并顺次准许请求终端设备10进行发送转变(411)。当终端设备10从SwMI 34收到了准许的发送转变时(412),则启动传输(413),并例如用TX准许音进行指示(414)。用户A、B、C把待发送的消息口述到麦克风20a中,终端设备10以已知方式将其发送到数据通信网络28(415)。
按照本发明的一个实施例,传输的去活能以下述方式进行检测:在传输期间使用VAD算法22处理音频信号(313),如果检测到讲话中有足够长的暂停,例如预先设置的长度(例如1-2秒)的暂停(314),在释放PTT开关26时,以对应的方式去活传输(316)。然后,该过程例如根据用户的动作或VOX特征的设置而回到步骤304(317)。
一个或一个以上可用VRE功能23识别的特定关键字组成更加改进的实施例,用于控制传输。由此,在传输期间,通过VAD或VRE功能23处理音频信号(416)。在处理中,对音频信号搜索所建立的结束准则,例如它可以是关键字(417)。这样的结束准则的另一个示例是讲话中的、所设置长度的暂停,因为基于可能性计算的语音识别始终有可能以某种方式失效。当找到所设置的关键字或所设置长度的暂停时,指示传输的去活(418)并去活VRE和传输(419)。然后,该过程进行到步骤404(420)。
通过使用关键字,用户A、B、C可以控制讲话何时发送到网络系统27以及何时不发送。这样使用关键字的一个示例可以是“VOX(暂停)这里需要援军,完毕,请回复!”。由此,接收者现在听到短语“这里需要援军,完毕,请回复!”,除了字“VOX”外,字“完毕,请回复”也设置在被安排成与语音识别23相连的数据库dB中。例如,数据库dB可以存储在终端设备10的存储装置17a中。当VRE功能23发现讲话信号中的上述字“完毕,请回复!”时,可以得出想要结束传输的结论。
在用户确定的时间期间或者直到激活的组呼结束为止,音频路径可为VOX特征保持开通。于是,关闭VAD和VRE功能,以便使功率消耗最小化。
用户A、B、C例如可以通过短暂地按压PTT开关26去活VOX特征,由此立即去活上述特征。也把这种情况指示给用户A、B、C,例如通过单音信号或者以其它某种适当的方式发出指示。
需要时,还可临时取消VOX特征。按照一个有利的实施例,用户A、B、C可以通过保持PTT开关26长时间压下来执行取消,由此,通过PTT开关26执行的传输可用于替代VOX特征。在传输之后,以已知的方式释放PTT开关26,由此,按照本发明的VOX特征再次激活。
在语音识别23和存储器容量所设置的限制内,用户A、B、C可以在数据库dB中存储关键字并对终端设备10进行编程。当对关键字编程时,终端设备10的用户A、B、C教导语音识别并建立与他已经教导的命令相对应的功能。实现方式可以取决于或者不取决于说话者。
在算法级,可以安排按照本发明的方法的实现,至于VAD功能22,例如出现在时间级。由此,检测音频信号的上升,所述上升应当足以区分。还有可能在频率级利用讲话频谱的识别。由此,音频信号必须类似于讲话,其信号通常在100Hz-1.5kHz的范围。由此,有关功能性的一个重要的准则是在信号中区分讲话与背景噪声。
图5示出另一个应用示例,其中也可以使用按照本发明的方法。这里,网络系统32.1、32.2支持例如GPRS传输模式,与All-IP基础设施31.1、31.2、33连接。由此,终端设备10’支持例如PoC组通信特征/服务。例如,通过为此目的保留的开关执行终端设备10’的VOX特征的激活。还有可能以至少上述两种方式(VAD,VAD与VRE)在PoC组通信中实现按照本发明的方法。
在第一种实现方式中,以特定的HF(免提)方式来安排配备PoC功能的终端设备10’。由此,在激活按照本发明的方法实现的VOX特征并且用户A’、B’、C’说出一些话时,终端设备10’将总是发送PoC讲话消息数据包。通过PoC服务器31.1、31.2来控制数据包的缓冲和传输的定时/定序。传输的识别最好可以通过基本模型的VAD模块来实现,它检测可能被解释为讲话的信号中的讲话的起点和终点,并据此控制传输,而不是按压和释放切线(tangent)。
在第二种实现方式中,与PoC功能有关的VOX特征的实现是基于VAD功能和VRE功能,其方式在前面描述过。在这种情况下,具备PoC功能的终端设备10’执行特定的HF(免提)切线关键字模式(tangent keyword mode)。因此,当个人A’、B’、C’说出口令之后说出句子时,终端设备10’总是以PoC功能发送讲话消息分组。这还可以通过上述基本模型的VAD和VRE模块来实现,其中VAD模块检测句子的开始和结束点,VRE模块识别关键字,并且传输不是通过按压/释放切线、而是按照VAD模块检测到的句子的开始和结束点来控制的。
在另一个有利的实施例中,用户A’、B’、C’可以在PoC终端设备10’中储存几个关键字。因此,用户A’、B’、C’有可能从其组中选择个别用户,只要说出例如作为与将成为接收者的用户对应的标识符而存储的关键字,就能为传输寻址。这样,用户直接可以仅对其选择的这个特定用户发送专用消息。所述类型的特征当然还可作为菜单选择来手工激活,但是在某些情况下,更加自然的是通过讲话来完成。
而且,按照一个实施例,用户可以使用由两个部分构成的关键字,这改进了上述方法的区分能力。例如,在用作关键字时,“聊天Jill”作为关键字是比单独的“Jill”更好的组合。例如,字“组”可以作为引用整个组的关键字来存储。在上述方法中最好可以用不同的组合。在组呼激活并且之后说出诸如名字的关键字以选择传输的接收者时,这种组合例如可以是按压切线。
当使用PoC系统中的VAD和VRE模块时,非标准附加字段被添加到用于系统中的IP数据包(通常使用RTP(实时传输协议)数据包)。附加字段由PoC服务器31.1来通知,PoC服务器仅向附加字段中提及的接收者转播消息。
如果VRE模块在其数据库中找到接收方,则给出所建立的形式的确认,它指示成功选择语音。例如,确认可以是对用户的短蜂鸣声或重复关键字。在听到确认之后(或者甚至在此之前,由此还可以在待发送的句子结束之后给出确认),用户可以口述其希望发送的消息。
通过按照本发明的方法,特别节省终端设备的功率消耗。例如,在噪声环境下,利用仅基于关键字的识别的终端设备必须不断地处理音频路径上的信号,该信号甚至不一定是讲话。在按照本发明的方法中,不执行这种实质上持续的关键字识别处理,直到在音频路径上检测到在最好是讲话形式的频率范围的声音,由此显著节省基本功率消耗。
应当理解,上面的描述和有关的附图仅仅用来说明按照本发明的方法。上述方法的程序实现可以有许多不同的方式,这对本领域技术人员来说是明显的。因此,本发明不限于上面给出的实施例,或者不限于权利要求书的字面意思,对本发明的许多改变和修改对本领域技术人员来说是明显的,它们可能落在所附权利要求书的发明构思范围内。
Claims (8)
1.数字网络系统(27)中用于控制终端设备(10)的传输的方法,所述终端设备(10)包括PTT(按讲)功能,以便至少激活要向所述网络系统进行的传输,其中用于语音控制所述PTT功能的所述终端设备(10)还包括VOX(声控传输)特征,该特征可以被激活/去活,并通过VRE(语音识别引擎)功能(23)实现,在所述方法中执行以下步骤:
-使用VRE功能(23)从音频信号中搜索建立的关键字(406,407),
-从音频信号中识别建立的关键字(408),
-向网络系统(27)请求发送转变(409),
-从网络系统(27)接收发送转变(412),
-连接传输并指示准予的发送转变(413,414),
-进行传输(415),以及
-去活传输(419),
其特征在于,在所述VRE功能(23)之前的所述VOX特征中,通过被安排与终端设备(10)连接的VAD(话音激活检测)功能(22)来监视音频信号,由此在终端设备(10)中激活所述VOX特征(401,402)时,在所述部分步骤(406-419)之前执行以下步骤:
-通过VAD功能(22)处理终端设备(10)的输入音频信号,从中搜索按照建立的准则的信号形式(404,405),以及
-当在音频信号中检测到按照建立的准则的信号形式时,激活所述VRE功能以搜索建立的关键字(405,406)。
2.如权利要求1-2所述的方法,其特征在于,
-在传输期间通过VAD功能(22)处理音频信号(416),
-对音频信号搜索建立的长度的暂停(417),
-在音频信号中发现建立的长度的暂停,由此指示为指示传输结束而建立的信号(418),并去活传输(419)。
3.如权利要求1-3所述的方法,其特征在于,
-在传输期间通过VRE功能(23)处理音频信号(416),
-对音频信号搜索建立的结束准则(417),
-在音频信号中发现建立的结束准则,由此指示为指示传输结束而建立的信号(418),并去活传输(419)。
4.如权利要求1-3中任何一项所述的方法,其特征在于,启动VOX特征并持续建立的时段或者直到激活的组呼结束为止,于是去活VAD和VRE功能(22,23)。
5.如权利要求1-4中任何一项所述的方法,其特征在于,可以通过建立的措施暂时取消VOX特征。
6.如权利要求1-5中任何一项所述的方法,其特征在于,在终端设备的存储装置(17a)中为VRE功能(23)安排专用数据库(dB),用户在所述数据库中存储用以激活和去活传输的关键字。
7.数字网络系统(32.1,32.2)中用于控制终端设备(10’)的传输的方法,其中所述网络系统(32.1,32.2)被安排与配备服务器的ALL-IP基础设施(31.1,31.2,33)连接,所述终端设备(10’)被安排成支持PoC(基于蜂窝的按讲)特征/服务,其中终端设备(10’)包括PTT(按讲)功能,以便至少激活要向所述网络系统进行的传输,其中用于语音控制所述PTT功能的终端设备(10’)还包括VOX(声控传输)特征,该特征可以被激活/去活并通过VRE(语音识别引擎)功能(23)实现,在通过PTT功能执行传输时,在所述方法中执行以下步骤:
-使用VRE功能(23)从音频信号中搜索建立的关键字(406,407),
-从音频信号中识别建立的关键字(408),
-激活传输(415),以及
-去活传输(419),
其特征在于,在所述VRE功能(23)之前的所述VOX特征中,通过被安排与终端设备(10’)连接的VAD(话音激活检测)功能(22)来监视音频信号,由此在终端设备(10’)中激活所述VOX特征(401,402)时,在所述部分步骤(406-419)之前执行以下步骤:
-通过VAD功能(22)处理终端设备的输入音频信号,从中搜索按照建立的准则的信号形式(404,405),以及
-当在音频信号中找到按照建立的准则的信号形式时,激活终端设备(10)的传输,执行所述部分步骤(406-419)。
8.如权利要求7所述的方法,其特征在于,除激活传输外,使用关键字以选择传输的接收者(A’,B’,C’,D’)。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FI20025028 | 2002-05-29 | ||
FI20025028A FI114358B (fi) | 2002-05-29 | 2002-05-29 | Menetelmä digitaalisessa verkkojärjestelmässä päätelaitteen lähetyksen ohjaamiseksi |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1656366A true CN1656366A (zh) | 2005-08-17 |
CN100361117C CN100361117C (zh) | 2008-01-09 |
Family
ID=8565198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB038121530A Expired - Fee Related CN100361117C (zh) | 2002-05-29 | 2003-05-26 | 数字网络系统中用于控制终端设备的传输的方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20050203998A1 (zh) |
EP (1) | EP1509756A1 (zh) |
KR (1) | KR20050006264A (zh) |
CN (1) | CN100361117C (zh) |
AU (1) | AU2003233821A1 (zh) |
FI (1) | FI114358B (zh) |
WO (1) | WO2003100372A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104583893A (zh) * | 2012-05-23 | 2015-04-29 | 高通股份有限公司 | 基于移动设备的运动和基于语音命令来建立群通信的系统和方法 |
CN105096936A (zh) * | 2014-05-15 | 2015-11-25 | 哈尔滨海能达科技有限公司 | 一种即时按键通话业务控制方法和装置 |
US9912706B2 (en) | 2012-05-23 | 2018-03-06 | Qualcomm Incorporated | Systems and methods for group communication using a mobile device using motion and voice activate controls |
US10187759B2 (en) | 2012-05-23 | 2019-01-22 | Qualcomm Incorporated | Systems and methods for group communication using a mobile device with mode depending on user proximity or device position |
CN109413593A (zh) * | 2017-08-17 | 2019-03-01 | 成都鼎桥通信技术有限公司 | 一种系统间集群语音互通对接方法 |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050059484A1 (en) * | 2003-09-16 | 2005-03-17 | Merit Industries, Inc. | Amusement device having time-based operating modes |
GB0328035D0 (en) * | 2003-12-03 | 2004-01-07 | British Telecomm | Communications method and system |
US20050209858A1 (en) * | 2004-03-16 | 2005-09-22 | Robert Zak | Apparatus and method for voice activated communication |
US7295853B2 (en) * | 2004-06-30 | 2007-11-13 | Research In Motion Limited | Methods and apparatus for the immediate acceptance and queuing of voice data for PTT communications |
DE602004005690T2 (de) * | 2004-06-30 | 2007-12-27 | Research In Motion Ltd., Waterloo | Verfahren und Vorrichtung zur direkten Annahme und Warteschlangenbildung von Sprachdaten für Drücken-zum-Sprechen-Kommunikation |
GB2417859A (en) | 2004-08-18 | 2006-03-08 | Vodafone Plc | Half duplex communication mode for devices in cellular telecommunication system |
JP2006101048A (ja) * | 2004-09-29 | 2006-04-13 | Nec Corp | Ptt通信システム、携帯端末装置及びそれらに用いる会話開始方法並びにそのプログラム |
EP1643708A1 (en) * | 2004-09-30 | 2006-04-05 | Siemens Aktiengesellschaft | Method and system for using a Push-to-Talk connection in communication conferences managed by at least one non human participant |
JP2006197041A (ja) * | 2005-01-12 | 2006-07-27 | Nec Corp | PoCシステム、PoC携帯端末及びそれらに用いるポインタ表示方法並びにそのプログラム |
KR100810222B1 (ko) * | 2005-02-01 | 2008-03-07 | 삼성전자주식회사 | 셀룰러 기반의 푸쉬 투 토크에서 전 이중 통화 제공 방법및 시스템 |
KR101158573B1 (ko) * | 2005-03-22 | 2012-06-22 | 삼성전자주식회사 | 푸쉬투토크 오버 셀룰러 망의 클라이언트 의견 수렴 방법및 그 시스템 |
WO2006137005A1 (en) * | 2005-06-24 | 2006-12-28 | Koninklijke Philips Electronics N.V. | Method and apparatus for semi-duplex communication in wireless communication system |
EP1905256B1 (en) | 2005-07-15 | 2013-05-15 | Research In Motion Limited | Methods and apparatus for providing ptt data buffering support indications from mobile devices and ptt data buffering control by wireless networks |
US8041376B2 (en) | 2005-07-15 | 2011-10-18 | Research In Motion Limited | Methods and apparatus for providing PTT data buffering support indications from mobile devices and PTT data buffering control by wireless networks |
KR100711719B1 (ko) * | 2005-08-25 | 2007-04-25 | 엘지전자 주식회사 | 피티티 단말기의 음성 전송 제어 장치 및 그 방법 |
US7996228B2 (en) * | 2005-12-22 | 2011-08-09 | Microsoft Corporation | Voice initiated network operations |
US20080045256A1 (en) * | 2006-08-16 | 2008-02-21 | Microsoft Corporation | Eyes-free push-to-talk communication |
JP2009049821A (ja) * | 2007-08-21 | 2009-03-05 | Aruze Corp | Ip電話システム |
ES2399680T3 (es) * | 2008-09-02 | 2013-04-02 | Rohill Technologies B.V | Operación rápida pulsar para hablar entre sistemas |
US9203900B2 (en) | 2011-09-23 | 2015-12-01 | Netapp, Inc. | Storage area network attached clustered storage system |
US8683170B1 (en) | 2011-09-23 | 2014-03-25 | Netapp, Inc. | Consistent distributed storage communication protocol semantics in a clustered storage system |
US8996059B2 (en) | 2012-07-19 | 2015-03-31 | Kirusa, Inc. | Adaptive communication mode for recording a media message |
US9704486B2 (en) | 2012-12-11 | 2017-07-11 | Amazon Technologies, Inc. | Speech recognition power management |
KR20180062127A (ko) * | 2016-11-30 | 2018-06-08 | 영남대학교 산학협력단 | 음성인식을 통한 다자간 무선 통신 장치 및 그 방법 |
US10902722B2 (en) * | 2017-05-11 | 2021-01-26 | Motorola Solutions, Inc. | Method for providing incident specific information at a vehicle computer |
US10477294B1 (en) * | 2018-01-30 | 2019-11-12 | Amazon Technologies, Inc. | Multi-device audio capture |
US10516934B1 (en) | 2018-09-26 | 2019-12-24 | Amazon Technologies, Inc. | Beamforming using an in-ear audio device |
US11482225B2 (en) | 2020-09-15 | 2022-10-25 | Motorola Solutions, Inc. | System and method for concurrent operation of voice operated switch and voice control with wake word |
JP7407249B1 (ja) * | 2022-08-12 | 2023-12-28 | 八重洲無線株式会社 | 無線通信機における送受信切り替え方法及び無線通信機 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1996011529A1 (en) * | 1994-10-06 | 1996-04-18 | Rotunda Thomas J Jr | Voice activated transmitter switch |
US5889764A (en) * | 1995-08-31 | 1999-03-30 | Intel Corporation | Low-latency multi-party audio chat |
US5912882A (en) * | 1996-02-01 | 1999-06-15 | Qualcomm Incorporated | Method and apparatus for providing a private communication system in a public switched telephone network |
US6993004B2 (en) * | 1998-10-29 | 2006-01-31 | Sound Starts, Inc. | Method and apparatus for practicing IP telephony from an Internet-capable radio |
US6360093B1 (en) * | 1999-02-05 | 2002-03-19 | Qualcomm, Incorporated | Wireless push-to-talk internet broadcast |
WO2001031636A2 (en) * | 1999-10-25 | 2001-05-03 | Lernout & Hauspie Speech Products N.V. | Speech recognition on gsm encoded data |
US7035790B2 (en) * | 2000-06-02 | 2006-04-25 | Canon Kabushiki Kaisha | Speech processing system |
US7072833B2 (en) * | 2000-06-02 | 2006-07-04 | Canon Kabushiki Kaisha | Speech processing system |
JP4201470B2 (ja) * | 2000-09-12 | 2008-12-24 | パイオニア株式会社 | 音声認識システム |
US20020173333A1 (en) * | 2001-05-18 | 2002-11-21 | Buchholz Dale R. | Method and apparatus for processing barge-in requests |
US6885856B2 (en) * | 2002-01-10 | 2005-04-26 | Chang-Sheng, Inc. | Telephone bridging method |
-
2002
- 2002-05-29 FI FI20025028A patent/FI114358B/fi active IP Right Grant
-
2003
- 2003-05-26 US US10/515,286 patent/US20050203998A1/en not_active Abandoned
- 2003-05-26 EP EP03727533A patent/EP1509756A1/en not_active Withdrawn
- 2003-05-26 AU AU2003233821A patent/AU2003233821A1/en not_active Abandoned
- 2003-05-26 CN CNB038121530A patent/CN100361117C/zh not_active Expired - Fee Related
- 2003-05-26 KR KR10-2004-7018794A patent/KR20050006264A/ko active IP Right Grant
- 2003-05-26 WO PCT/FI2003/000400 patent/WO2003100372A1/en not_active Application Discontinuation
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104583893A (zh) * | 2012-05-23 | 2015-04-29 | 高通股份有限公司 | 基于移动设备的运动和基于语音命令来建立群通信的系统和方法 |
US9912706B2 (en) | 2012-05-23 | 2018-03-06 | Qualcomm Incorporated | Systems and methods for group communication using a mobile device using motion and voice activate controls |
US10142802B2 (en) | 2012-05-23 | 2018-11-27 | Qualcomm Incorporated | Systems and methods for establishing a group communication based on motion of a mobile device |
US10187759B2 (en) | 2012-05-23 | 2019-01-22 | Qualcomm Incorporated | Systems and methods for group communication using a mobile device with mode depending on user proximity or device position |
CN105096936A (zh) * | 2014-05-15 | 2015-11-25 | 哈尔滨海能达科技有限公司 | 一种即时按键通话业务控制方法和装置 |
CN109413593A (zh) * | 2017-08-17 | 2019-03-01 | 成都鼎桥通信技术有限公司 | 一种系统间集群语音互通对接方法 |
Also Published As
Publication number | Publication date |
---|---|
KR20050006264A (ko) | 2005-01-15 |
FI20025028A0 (fi) | 2002-05-29 |
EP1509756A1 (en) | 2005-03-02 |
US20050203998A1 (en) | 2005-09-15 |
CN100361117C (zh) | 2008-01-09 |
FI20025028A (fi) | 2003-11-30 |
AU2003233821A1 (en) | 2003-12-12 |
FI114358B (fi) | 2004-09-30 |
WO2003100372A1 (en) | 2003-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100361117C (zh) | 数字网络系统中用于控制终端设备的传输的方法 | |
CN1130087C (zh) | 基于主叫用户标识符的呼叫自动应答方法 | |
CN101072408B (zh) | 通信终端装置和通信方法 | |
CN1096205C (zh) | 用于蜂窝无线电话的网络号码簿方法与系统 | |
CN1839583A (zh) | 用于将呼叫者信息从源发送到目的地的系统和方法 | |
CN1278523C (zh) | 广域网连接装置及方法 | |
KR100916730B1 (ko) | 푸쉬투토크 시스템에서 경보 톤을 송신하고 플레이하는시스템 및 방법 | |
US20040228292A1 (en) | Method and apparatus for providing full duplex dispatch | |
US6996397B2 (en) | Method of transition between wireless voice and data transmissions | |
US20060079261A1 (en) | Push-to-talk communication system, mobile communication terminal, and voice transmitting method | |
CN1622646A (zh) | 控制来自移动车辆的无线通信的方法 | |
CN101040524A (zh) | 用于在无线系统中优化音频及视频数据传输的系统及方法 | |
CN100376118C (zh) | 移动通信系统中即按即说呼叫期间的语音呼叫连接方法 | |
CN102136918B (zh) | 一种远程接入广播的方法、装置及系统 | |
CN1859489A (zh) | 主叫用户下载被叫用户回铃音的相关内容的系统和方法 | |
CN1917537A (zh) | 一种实现一键通业务的方法和系统 | |
EP1589739A3 (en) | IP telephone system, IP telephone apparatus and calling method | |
CN1812442A (zh) | 来电智能识别和应答方法及其智能应答装置和用途 | |
CN1738450A (zh) | 移动通信系统中使用即按即说方案的通信方法 | |
US20060159238A1 (en) | Voice talk system, voice talk control apparatus, voice talk control method, and voice talk control program | |
US20140349626A1 (en) | System for providing high-efficiency push-to-talk communication service to large groups over large areas | |
CN105635945A (zh) | 一种基于WI-FI Aware的设备通讯方法及系统 | |
US7983707B2 (en) | System and method for mobile PTT communication | |
CN1735236A (zh) | 在移动通信系统中使用即按即说方案进行通信的方法 | |
CN101778429B (zh) | 加速可视电话协商的方法及其可视电话 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20080109 Termination date: 20100526 |