CN1801323B - 语音/语者识别系统的负载最佳化方法 - Google Patents

语音/语者识别系统的负载最佳化方法 Download PDF

Info

Publication number
CN1801323B
CN1801323B CN2005100042537A CN200510004253A CN1801323B CN 1801323 B CN1801323 B CN 1801323B CN 2005100042537 A CN2005100042537 A CN 2005100042537A CN 200510004253 A CN200510004253 A CN 200510004253A CN 1801323 B CN1801323 B CN 1801323B
Authority
CN
China
Prior art keywords
voice
computing
phonetic feature
spent time
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2005100042537A
Other languages
English (en)
Other versions
CN1801323A (zh
Inventor
李允文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Delta Electronics Inc
Delta Optoelectronics Inc
Original Assignee
Delta Optoelectronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Delta Optoelectronics Inc filed Critical Delta Optoelectronics Inc
Priority to CN2005100042537A priority Critical patent/CN1801323B/zh
Publication of CN1801323A publication Critical patent/CN1801323A/zh
Application granted granted Critical
Publication of CN1801323B publication Critical patent/CN1801323B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Computer And Data Communications (AREA)

Abstract

本发明提供了一种语音/语者识别系统负载最佳化的方法,用于一语音/语者识别系统。该方法包含:(a)提供在客户端运算各级的语音特征所耗费的时间,其中在该客户端运算第i级语音特征所耗费时间相对于输入该语音所耗费时间的倍数为Ta(i);(b)提供在服务器端运算各级语音特征所耗费时间,其中在服务器端第i级语音特征运算所耗费时间相对于输入该语音所耗费时间的倍数为Tb(i);(c)提供该服务器的一负载c及该网络的一负载d;(d)在该N的范围内决定一n值,其使得识别该语音所耗费的时间(Toutput)为最小;(e)输入一语音,由该客户端进行该语音的第1级语音特征至第n级语音特征的运算,而由该服务器端进行该语音的第(n+1)级语音特征至该第N级语音特征的运算。

Description

语音/语者识别系统的负载最佳化方法
技术领域
本发明涉及一种语音/语者识别系统负载最佳化的方法,尤指一种分布式语音/语者识别系统依据负载动态调整的方法。
背景技术
在这个网络(尤其是全球信息网)盛行的时代,有越来越多的商务行为和娱乐活动已经转由通过网络提供人们所需要的服务。然而,大多数全球信息网的使用者都受限于使用以非语音输入/输出装置为基础的设备,例如:鼠标、键盘、触控板、轨迹球、打印机、屏幕等等,由于这些使用者设备并不符合人类以语音沟通的自然天性和方便性,使得通过全球信息网进行互动的发展遇到了一些瓶颈,于是科学家开始着手进行语音/语者识别系统作为使用者与机器的沟通接口,使得这些在网络上的互动行为能更符合人性化需求。
近年来语音/语者识别系统以及电信技术的快速发展使得这方面技术的应用更为广泛,而不仅仅只是限制在单一的个人计算机上使用,分布式语音/语者识别系统允许使用者在不同的位置以不同的装置输入语音,所输入的语音传输至中央处理系统,经中央处理系统识别后以适当的方式(文字、画面、语音)对使用者做出响应。
在语音/语者识别技术中,特征参数撷取(feature extraction)的处理非常重要,借助对分析处理过的特征信号所具备的特性与建立好的模块进行相互对比,即可得到正确的识别结果。
请参阅图1,其是现有的语音/语者识别系统识别语音信号的流程图。使用者利用输入装置(例如:麦克风)输入语音信号,该语音信号经过适当步骤的前处理(例如:信号放大、正规化(normalization)、预强调(pre-emphasis)、乘上汉明窗(Hamming Window)、通过低通滤波器或高通滤波器..等),接着便进入特征参数撷取处理的步骤。特征参数撷取处理系以帧为单位,针对每一帧先进行例如:快速傅立叶变换(Fast Fourier Transform,FFT)处理将语音信号转为频谱,接着进一步对该频谱求得梅尔倒频谱参数(Mel-FrequencyCepstrum Coefficients,MFCC)或是进行明亮度(Brightness)、过零点率(ZeroCrossing Rate)或基频等的分析。最后,将特征参数与数据库的所建立的特征数据做对比,由服务器回传适当的响应给使用者。
现有的语音/语者识别系统在特征参数撷取处理上相当依赖连接至识别引擎的中央处理器的运算能力,且传输时间的多寡也视网络带宽而决定,由于过去语音/语者识别系统在应用上尚未普及,因此中央处理器及网络的负载过重的情形并不常发生;然而随着该系统的应用越来越广泛,使用者的激增使得中央处理器及网络的负载越来越大,造成许多使用者在队列中等待中央处理器完成识别回传结果的时间过长,也因此无法满足实时(real time)响应使用者的需求。
目前解决上述问题的方法主要有两种,一种是由服务器和客户端(例如:PDA、机上盒等)分别负担一部份的运算。基本上其作法是根据服务器端和客户端的处理能力而预先决定各自需要负担的运算量,但是这种方式并没有动态调整负载的功能,客户端并不能随着负载骤增而多分担一点运算使整体的等待时间最短,一旦输入的装置增多,则每个客户端等待的时间也随之增加,因此对于大量的输入造成等待时间过长的问题并无法有效解决。
另一种方式是在负载过重时调整每一级特征的效能,亦即牺牲特征的正确性来获取更快的运算时间,这种方式虽然是属于动态调整负载,且能减少整体等待时间,但是相对地识别语音/语者的正确率也会因此降低。
所以,申请人鉴于现有技术的缺陷,经悉心试验与研究,并一本锲而不舍的精神,终于研发出一种语音/语者识别系统负载最佳化方法。
发明内容
本申请的主要目的是提供一种语音/语者识别系统负载最佳化的方法,该方法主要是根据网络及服务器的负载动态分配服务器端及客户端所需负担的运算,使客户端等待语音/语者识别结果所需时间为最小。
根据上述构想,本申请提供一种语音/语者识别系统负载最佳化的方法,其包含一服务器端(server)、一客户端(client)及一网络,其通过对一语音进行总共N级的语音特征(feature)运算完成识别,其中N为一正整数,其中在该N的范围内任取一i值用以代表第i级语音特征运算,其步骤包含:(a)提供在该客户端运算各级的该语音特征所耗费的时间,其中在该客户端运算该第i级语音特征所耗费时间相对于输入该语音所耗费时间的倍数为Ta(i);(b)提供在该服务器端运算各级的该语音特征所耗费时间,其中在该服务器端该第i级语音特征运算所耗费时间相对于输入该语音所耗费时间的倍数为Tb(i);(c)估算该服务器的一负载c及该网络的一负载d;(d)在该N的范围内决定一n值,使得识别该语音所耗费的时间(Toutput)为最小;(e)输入一语音,以进行语音识别,其中该输入需耗费一输入时间(Tinput);(f)由该客户端进行该语音的第1级语音特征至第n级语音特征的运算,而由该服务器端进行该语音之第(n+1)级语音特征至该第N级语音特征的运算;以及(g)重复步骤(e)-(f)。
根据上述构想,其中该步骤(c)更包含:(c1)输入一第一语音,以进行语音识别,其中该输入需耗费一第一输入时间Tinput1,且完成该语音识别需耗费一第一输出时间Toutput1;以及(c2)输入一第二语音,以进行语音识别,其中该输入需耗费一第二输入时间Tinput2,且完成该语音识别需耗费一第二输出时间Toutput2
根据上述构想,其中该第一语音具有一数据量Dn(Tinput1)。
根据上述构想,其中该网络传送该第一语音所耗费的时间为Dn(Tinput1)/d。
根据上述构想,其中该第二语音具有一数据量Dn(Tinput2)。
根据上述构想,其中该网络传送该第二语音所耗费的时间为Dn(Tinput2)/d。
根据上述构想,其中该输入的语音具有一数据量Dn(Tinput)。
根据上述构想,其中该网络传送该语音所耗费的时间为Dn(Tinput)/d。
根据上述构想,其中该网络传回一识别结果所耗费的时间为K/d。
根据上述构想,其中该步骤(c1)更包含:(c11)提供一n1值,其在该N的范围内;以及(c12)由该客户端进行该第一语音的第1级语音特征至第n1级语音特征的运算,而由该服务器端进行该第一语音的第(n1+1)级语音特征至该第N级语音特征的运算。
根据上述构想,其中该客户端进行该第一语音的第1级语音特征至第n1级语音特征的运算所耗费之时间,为运算各该级语音特征所耗费时间之和,即 T input 1 * Σ i = 1 n 1 Ta ( i ) .
根据上述构想,其中该服务器端进行该第一语音的第(n1+1)级语音特征至该第N级语音特征的运算所耗费之时间,为运算各该级语音特征所耗费时间之和,即 T input 1 * 1 c Σ i = n 1 + 1 N Tb ( i ) .
根据上述构想,其中运算该第一语音的该共N级语音特征所耗费的时间,为在该客户端运算所耗费之时间与在服务器端运算所耗费的时间之和,亦即 T input 1 * ( Σ i = 1 n 1 Ta ( i ) + 1 c Σ i = n 1 + 1 N Tb ( i ) ) .
根据上述构想,其中该第一输出时间为运算该第一语音的该共N级语音特征所耗费的时间、该网络传送该第一语音所耗费的时间以及该网络传回一识别结果所耗费之时间之和,即 T output 1 = T input 1 * ( Σ i = 1 n 1 Ta ( i ) + 1 c Σ i = n 1 + 1 N Tb ( i ) ) + 1 d Dn ( T input 1 ) + 1 d K .
根据上述构想,其中该步骤(c2)还包含:(c21)提供一n2值,在该N的范围内;以及(c22)由该客户端进行该第二语音的第1级语音特征至第n2级语音特征的运算,而由该服务器端进行该第一语音的第(n2+1)级语音特征至该第N级语音特征的运算。
根据上述构想,其中该客户端进行该第二语音的第1级语音特征至第n2级语音特征的运算所耗费之时间,为运算各该级语音特征所耗费时间之和,即 T input 2 * Σ i = 1 n 2 Ta ( i ) .
根据上述构想,其中该服务器端进行该第二语音的第(n2+1)级语音特征至该第N级语音特征之运算所耗费的时间,为运算各该级语音特征所耗费时间之和,即 T input 2 * 1 c Σ i = n 2 + 1 N Tb ( i ) .
根据上述构想,其中运算该第二语音的该共N级语音特征所耗费的时间,为在该客户端运算所耗费的时间与在服务器端运算所耗费的时间之和,即 T input 2 * ( Σ i = 1 n 2 Ta ( i ) + 1 c Σ i = n 2 + 1 N Tb ( i ) ) .
根据上述构想,其中该第二输出时间为运算该第二语音的该共N级语音特征所耗费的时间、该网络传送该第二语音所耗费的时间以及该网络传回一识别结果所耗费的时间之和,即 T output 2 = T input 2 * ( Σ i = 1 n 2 Ta ( i ) + 1 c Σ i = n 2 + 1 N Tb ( i ) ) + 1 d Dn ( T input 2 ) + 1 d K .
根据上述构想,其中识别该语音所耗费的时间为运算该语音的该共N级语音特征所耗费的时间、该网络传送该语音所耗费的时间以及该网络传回一识别结果所耗费的时间之和,即 T output = T input * ( Σ i = 1 n Ta ( i ) + 1 c Σ i = n + 1 N Tb ( i ) ) + 1 d Dn ( T input ) + 1 d K .
本申请的另一目的在提供一种录音同步语音特征计算(frame-synchronized)最佳化的方法,该方法可在录音同时,动态分配服务器端及客户端所需负担的运算,使客户端等待语音/语者识别结果所需时间为最小。
根据上述构想,本申请提供了一种录音同步语音特征计算(frame-synchronized)最佳化的方法,其用于一录音同步语音特征计算系统,其包含一服务器端(server)、一客户端(client)及一网络,该方法通过对一由N’个帧(frame)所组成的语音进行总共N级的语音特征(feature)运算完成识别,其中N及N’分别为一正整数,其中在该N的范围内任取一i值用以代表第i级语音特征,其中在该N’的范围内任取一n’值用以代表第n’个帧,其步骤包含:(a)提供一适当的n值,在该N的范围内;(b)输入该语音,该录音同步语音特征计算系统同步对该语音进行语音特征运算,其中由该客户端进行该语音的各该帧的第1级语音特征至第n级语音特征的运算,而由该服务器端进行该语音的各该帧的第(n+1)级语音特征至第N级语音特征的运算;(c)当该语音输入结束,其耗费一输入时间(Tinput),且该录音同步语音特征计算系统已完成n’个帧的运算,且第(n’+1)个帧已完成第n1级的语音特征运算,则根据该n1值可经由一适当方式修正该n值,其使得识别该语音所耗费的时间(Toutput)为最小;以及(d)依据步骤(c)所修正的该n值,由该客户端进行尚未完成运算的各该帧的第1级语音特征至第n级语音特征的运算,而由该服务器端进行尚未完成运算的各该帧的第(n+1)级语音特征至该第N级语音特征的运算。
根据上述构想,其中步骤(a)中的该n值利用权利要求1的方法求得。
根据上述构想,其中在该客户端运算该第i级语音特征所耗费时间相对于输入该语音所耗费时间的倍数为Ta(i)。
根据上述构想,其中在该服务器端运算该第i级语音特征所耗费时间相对于输入该语音所耗费时间的倍数为Tb(i)。
根据上述构想,其中该客户端进行该语音的第1级语音特征至第n级语音特征的运算所耗费的时间,为运算各该级语音特征所耗费时间的和,即 T input * Σ i = 1 n Ta ( i ) .
根据上述构想,其中该服务器端进行该语音的第(n+1)级语音特征至该第N级语音特征的运算所耗费的时间,为运算各该级语音特征所耗费时间之和,即 T input * 1 c Σ i = n + 1 N Tb ( i ) .
根据上述构想,其中运算该语音的该共N级语音特征所耗费的时间,为在该客户端运算所耗费的时间与在服务器端运算所耗费的时间之和,即 T input * ( Σ i = 1 n Ta ( i ) + 1 c Σ i = n + 1 N Tb ( i ) ) .
根据上述构想,其中该语音具有一数据量Dn(Tinput)。
根据上述构想,其中该网络传送该语音所耗费的时间为Dn(Tinput)/d。
根据上述构想,其中该网络传回一识别结果所耗费的时间为K/d。
根据上述构想,其中该步骤(c)中的该适当方式为:(c1)若该n1值小于该n值时,则利用
n = Arg n ( Min ( T input * [ ( Σ i = 1 n Ta ( i ) + 1 c Σ i = n + 1 N Tb ( i ) ) + Σ i = n 1 n Ta ( i ) + 1 c Σ i = n + 1 N Tb ( i ) ] + 1 d Dn ( T input ) + 1 d K ) )
取所欲修正的该n值;以及(c2)若该n1值大于或等于该n值时,则利用
n = Atg n ( Min ( t input * [ ( Σ i = 1 n Ta ( i ) + 1 c Σ i = n + 1 N Tb ( i ) ) + 1 c Σ i = n 1 + 1 N Tb ( i ) ] + 1 d Dn ( T input ) + 1 d K ) )
求取所欲修正的该n值,其中c为该服务器之负载,而d系为该网络的负载。
根据上述构想,其中该服务器的负载c及该网络的负载d,是利用上述的方法求得。
本申请的再一目的在于提供一种语音/语者识别系统负载最佳化的方法,其用于一语音/语者识别系统,其包含一服务器端(server)、一客户端(client)及一网络,其通过对一语音进行多级语音特征(feature)运算完成识别,其步骤包含:(a)提供在该客户端运算各级的该语音特征所耗费的时间;(b)提供在该服务器端运算各级的该语音特征所耗费时间;(c)估算该服务器端的一负载及该网络的一负载;(d)依据该服务器端的负载及该网络的负载,计算一适当量,使得识别该语音所耗费的时间为最小;以及(e)根据该适当量,在识别一语音所需运算的该多级特征中,决定分别于该客户端及该服务器端所需负担的运算。
根据上述构想,其中步骤(c)更包含:(c1)输入一第一语音,以进行语音识别,其中该输入需耗费一第一输入时间,且完成该语音识别需耗费一第一输出时间;(c2)输入一第二语音,以进行语音识别,其中该输入需耗费一第二输入时间,且完成该语音识别需耗费一第二输出时间;以及(c3)根据(c1)及(c2)所得的结果,估算该服务器端的负载及该网络的负载。
根据上述构想,其中在该客户端运算各级的该语音特征所耗费的时间与该输入时间成正比。
根据上述构想,其中在该服务器端运算各级的该语音特征所耗费的时间与该输入时间成正比。
根据上述构想,其中该语音包含一数据量。
根据上述构想,其中网络传输该语音所需时间为该语音的数据量除以该网络的负载。
根据上述构想,其中该多级特征运算所需时间为在该客户端运算该多级特征与该服务器端处理该多级特征所需时间之和。
根据上述构想,其中该输出时间系为该多级特征运算所需时间、该网络传输该语音所需时间以及该网络传输一识别结果所需时间之和。
本申请的再一目的在于提供一种录音同步语音特征计算(frame-synchronized)最佳化的方法,其用于一录音同步语音特征计算系统,其包含一服务器端(server)、一客户端(client)及一网络,该方法由对由多个帧(frame)所组成的一语音进行总共多级的语音特征(feature)运算完成识别,其步骤包含:(a)提供一适当量;(b)输入该语音,则该录音同步语音特征计算系统系同步对该语音进行语音特征运算,其中该系统系依据该适当量,分配该客户端及该服务器端所需负担的运算;(c)当该语音输入结束,其耗费一输入时间,其中该多个帧中有部分帧尚未完成运算,且该尚未完成运算的帧中的一第一帧仅完成部分该多级特征的运算,则由一适当方式修正该适当量,使得识别该语音所耗费的时间为最小;以及(d)依据步骤(c)所修改的该适当量,分配该客户端及该服务器端所需负担的运算,以进行尚未完成运算的各该帧的语音特征运算完成识别。
根据上述构想,其中步骤(a)中的该适当量是利用上述方法求得。
根据上述构想,其中该客户端处理该多级特征的一所需的时间与该输入时间成正比。
根据上述构想,其中该服务器端处理该多级特征的一所需的时间与该输入时间成正比。
根据上述构想,其中该语音具有一数据量。
根据上述构想,其中该网络传送该语音所耗费的时间,为该数据量除以该网络的一负载。
根据上述构想,其中该运算多级特征所需时间,为该客户端处理该多级特征及该服务器端处理该多级特征所需时间之和。
根据上述构想,其中识别该语音所耗费的该时间为该运算多级特征所需时间、该网络传送该语音所耗费的时间以及该网络传输一识别结果所需时间之和。
附图说明
图1所示是现有的语音/语者识别系统识别语音信号的流程图;
图2所示为本申请的语音/语者识别系统的负载最佳化方法的一较佳实施例流程图;以及
图3所示为本申请的录音同步语音特征计算(frame-synchronized)最佳化的方法的一较佳实施例流程图。
具体实施方式
本申请将可由以下的实施例说明而得到充分了解,使得熟习本领域的人士可以据以完成,然本申请的实施并非可由下列实施例而被限制其实施方式。
请参阅图2,其为本申请的语音/语者识别系统负载最佳化的方法的一较佳实施例流程图。首先,由于客户端和服务器端所搭载的中央处理器信息可事先得知,因此便可以于步骤A中提供客户端和服务器端各自对识别引擎处理每一级的特征(feature)所花的时间,该时间必与输入时间的实时(real time)呈一倍数关系,因此当客户端处理第i级特征时,便可得知其运算时间为Ta(i)倍的实时;客户端若为如PDA等使用者所自备的硬件,则Ta(i)可由前数次的实际运算时间平均后得到,客户端若为如机上盒(setup-box)等由系统厂商所提供的硬件,则Ta(i)可由系统厂商事先经数次实际运算时间平均估测得到。同样地,当服务器端处理第i级特征时,也可得知其运算时间为Tb(i)倍的实时,服务器端通常是由系统厂商提供的硬件,因此Tb(i)可由系统厂商事先经数次实际运算时间平均估测得到,但若服务器端不是由系统厂商所提供的硬件,则Tb(i)可由前数次的实际运算时间平均测到。接着,在步骤B中估算该服务器及网络目前的负载。在步骤C中,根据步骤A及步骤B所得的信息,亦即Ta(i)、Tb(i)和目前的服务器负载c及目前的网络负载d,便能决定可使输出时间最小的分配值n。最后,在步骤D中,往后的语音识别就可以依据该n值分配服务器端和客户端各自需要负担的运算,直到再一次修改上述的n值为止,因此便能达到动态调整使得客户端等待时间为最短的功能。
在实际执行上,步骤B中的服务器及网络目前的负载可经由下述程序求得。首先,输入一第一语音进行识别,可测得输入该第一语音所需耗费的时间Tinput1以及完成识别传回结果所需耗费的输出时间Toutput1。接着,输入一第二语音进行识别,可测得输入该第二语音所需耗费的时间Tinput2以及完成识别传回结果所需耗费的输出时间Toutput2。利用上述步骤所测得的输入时间(Tinput1、Tinput2)及输出时间(Toutput1、Toutput2),可代入下列的方程式(1)建立联立方程式而分别求得目前服务器的负载c及网络负载d,
方程式(1):
T output = T input * ( Σ i = 1 n Ta ( i ) + 1 c Σ i = n + 1 N Tb ( i ) ) + 1 d Dn ( T input ) + 1 d K
其中N表示总共有N级的特征处理;c表示服务器目前的负载;d表示网络目前的负载; T input * Σ i = 1 n 1 Ta ( i ) 表示在客户端运算第1级至第n级特征所耗费的时间; T input 1 * 1 c Σ i = n 1 + 1 N Tb ( i ) 则表示在具有c负载的服务器端运算第(n+1)级至第N级特征所耗费的时间;Dn(Tinput)表示语音所具有的数据量,因此Dn(Tinput)/d即表示具有d负载的网络传输语音所需的时间;K为传回识别结果的大小,K/d则表示具有d负载的该网络传回识别结果所花费的时间,由于识别结果的大小通常变化不大,可视为常数;而完成识别所需的输出时间(Toutput)即为在客户端运算特征所耗费的时间、在服务器端运算特征所耗费的时间、网络传输语音所需的时间以及传回识别结果所花费的时间的总和。此外,步骤C中决定可使输出时间(Toutput)最小的n值则可根据下列的方程式(2)求得,
方程式(2):
n = Arg n ( Min ( T input * ( Σ i = 1 n Ta ( i ) + 1 c Σ i = n + 1 N Tb ( i ) ) + 1 d Dn ( T input ) + 1 d K ) )
本发明也可视实际情况设定每隔一段时间便重新计算服务器和网络的负载,以估测在下一段时间中要如何取n值才能使整体识别时间最佳化。再者,假设服务器负载变化不大的话,便可在前一次响应中得知服务器的负载,或是服务器也可以固定每隔一段时间广播其所估测的下一段时间的负载,如此一来,仅需花一次实际测量时间就可以计算出网络的负载,由此估测在下一段时间中所要取的n值。此外,若尚未有足够信息进行网络及服务器的负载计算之前,亦可凭经验任取一n值使用,直到有足够的信息进行网络及服务器的负载评估为止。
请参阅图3,其为本申请的录音同步语音特征计算(frame-synchronized)最佳化的方法的一较佳实施例流程图。由于录音同步语音特征计算系统是在录音同时进行同步识别,因此录音一旦开始,识别引擎便会循序针对组成该语音的每一个帧(frame)做特征运算,而非等到录音完成后才对语音帧做处理。首先,由于可事先得知在客户端和服务器端中所搭载的中央处理器信息,因此便可以在步骤A中预先提供客户端和服务器端各自对识别引擎处理每一级的特征(feature)所花的时间,该时间必与输入时间的实时(real time)呈一倍数关系,因此当客户端处理第i级特征时,便可得知其运算时间为Ta(i)倍的实时;客户端若为如PDA等使用者所自备的硬件,则Ta(i)可由前数次的实际运算时间平均后得到,客户端若为如机上盒(setup-box)等由系统厂商所提供的硬件,则Ta(i)可由系统厂商事先经数次实际运算时间平均估测得到。同样地,当服务器端处理第i级特征时,便可估算其运算时间为Tb(i)倍的实时,服务器端通常是由系统厂商提供的硬件,因此Tb(i)可由系统厂商事先经数次实际运算时间平均估测得到,但若服务器端不是由系统厂商所提供的硬件,则Tb(i)可由前数次的实际运算时间平均测到。接着在步骤B中,输入一语音进行语音识别,由于在录音结束前并无法得知输入语音所需耗费的总时间(Tinput),因此在录音尚未完成的处理阶段,先依据上述方法所选定的n值或是依据经验自行给定n值,来分配客户端和服务器端所需负担的特征运算。在步骤C中,一旦录音完成,便可测得输入所耗费的时间(Tinput),且假设当时录音同步语音特征计算系统已完成n’个帧的所有特征运算,而第(n’+1)个帧已完成第n1级的语音特征运算,此时若n1值小于步骤B中所给定的n值时,便依据下列的方程式(3)修正该n值,使整体识别时间(Toutput)最小,
方程式(3):
n = Arg n ( Min ( T input * [ ( Σ i = 1 n Ta ( i ) + 1 c Σ i = n + 1 N Tb ( i ) ) + Σ i = n 1 n Ta ( i ) + 1 c Σ i = n + 1 N Tb ( i ) ] + 1 d Dn ( T input ) + 1 d K ) ) 其中N表示总共有N级的特征处理;c表示服务器目前的负载;d表示网络目前的负载; T input * ( Σ i = 1 n Ta ( i ) + 1 c Σ i = n + 1 N Tb ( i ) ) 代表尚未运算的语音特征运算,依据所修正的  n值分配给客户端和服务器端运算所耗费的时间; T input * ( Σ i = n 1 n Ta ( i ) + 1 c Σ i = n + 1 N Tb ( i ) ) 代表第(n’+1)个帧尚未完成处理的特征运算,依据所修正的n值分配给客户端和服务器端运算所耗费的时间;Dn(Tinput)表示语音所具有的数据量,因此Dn(Tinput)/d即表示具有d负载的网络传输语音所需的时间;而K为传回识别结果的大小,K/d则表示具有d负载的该网络传回识别结果所花费的时间,由于识别结果的大小通常变化不大,可视为常数。若在步骤C中的n1值大于或等于步骤B中所给定的n值时,便依据下列的方程式(4)修正该n值,使整体识别时间(Toutput)最小,
方程式(4)
n = Arg n ( Min ( T input * [ ( Σ i = 1 n Ta ( i ) + 1 c Σ i = n + 1 N Tb ( i ) ) + 1 c Σ i = n 1 + 1 N Tb ( i ) ] + 1 d Dn ( T input ) + 1 d K ) )
其中N表示总共有N级特征处理;c表示服务器目前的负载;d表示网络目前的负载; T input * ( Σ i = 1 n Ta ( i ) + 1 c Σ i = n + 1 N Tb ( i ) ) 代表尚未运算的语音特征运算,依据所修正的n值分配给客户端和服务器端运算所耗费的时间; T input * ( 1 c Σ i = n 1 + 1 N Tb ( i ) ) 代表进行第(n’+1)个帧尚未完成处理的特征运算所需耗费的时间,在此就完全交由服务器端运算;Dn(Tinput)表示语音所具有的数据量,因此Dn(Tinput)/d即表示具有d负载的网络传输语音所需的时间;而K为传回识别结果的大小,K/d则表示具有d负载的该网络传回识别结果所花费的时间,由于识别结果的大小通常变化不大,可视为常数。
综上所述,本申请的语音/语者识别系统负载最佳化方法,通过估算服务器端和网络目前的负载,动态调整客户端分担的服务器端的工作,使得整体识别时间及客户端等待时间最短。纵使本发明已由上述的实施例详细叙述而可由本技术领域的普通技术人员作出各种等效变换,但是均不超出本发明的范围。

Claims (6)

1.一种语音/语者识别系统的负载最佳化方法,用于一语音/语者识别系统,该系统包含一服务器端、一客户端及一网络,该方法通过对一语音进行总共N级的语音特征运算完成识别,其中N为一正整数,其中在该N的范围内任取一i值用以代表第i级语音特征,其特征在于,该方法包含如下步骤:
(a)提供在该客户端运算各级的该语音特征所耗费的时间,其中在该客户端运算该第i级语音特征所耗费时间相对于输入该语音所耗费时间的倍数为Ta(i),而该客户端进行该语音的第1级语音特征至第n级语音特征的运算所耗费的时间,为运算各该级语音特征所耗费时间之和,即
Figure FSB00000345752400011
且该语音具有一数据量Dn(Tinput),而该网络负载为d,则该网络传送该语音的时间为Dn(Tinput)/d,而识别结果的大小为K,故该识别结果的传回时间为K/d;
(b)提供在该服务器端运算各级的该语音特征所耗费时间,其中该服务器的负载为c,且在该服务器端该第i级语音特征运算所耗费时间相对于输入该语音所耗费时间的倍数为Tb(i),该服务器端进行该语音的第n+1级语音特征至该第N级语音特征的运算所耗费的时间,为运算各该级语音特征所耗费时间之和,即
Figure FSB00000345752400012
(c)由上述在客户端运算各该级语音特征所耗费时间之和上述在服务器端运算各该级语音特征所耗费时间之和该网络传送该语音的时间为Dn(Tinput)/d、以及该识别结果的传回时间K/d,可得到该语音的输出时间为
Figure FSB00000345752400015
的一方程式(1);
(d)重复步骤(a)-(c)以输入第一语音与第二语音而得到该第一语音与第二语音的输出时间,通过方程式(1)的联立以获得该服务器的负载c与该网络的负载d;
(e)在该N的范围内决定一n值,其使得识别该语音所耗费的时间Toutput为最小,其中该n值由一方程式(2)
Figure FSB00000345752400016
求得;
(f)重复步骤(d)-(e)。
2.如权利要求1所述的方法,其特征在于,该步骤(d)所述第一语音与第二语音的输入更包含下列步骤:
(d1)输入该第一语音进行识别,其中该输入需耗费一第一输入时间Tinput1,且完成该语音识别需耗费一第一输出时间Toutput1;以及
(d2)输入该第二语音进行识别,其中该输入需耗费一第二输入时间Tinput2,且完成该语音识别需耗费一第二输出时间Toutput2
3.如权利要求2所述的方法,其特征在于:
该第一语音具有一数据量Dn(Tinput1);
该网络传送该第一语音所耗费的时间为Dn(Tinput1)/d;
该第二语音具有一数据量Dn(Tinput2);及
该网络传送该第二语音所耗费的时间为Dn(Tinput2)/d。
4.如权利要求3所述的方法,其特征在于:
该步骤(d1)更包含:
(d11)提供一n1值,其在该N的范围内;以及
(d12)由该客户端进行该第一语音的第1级语音特征至第n1级语音特征的运算,而由该服务器端进行该第一语音的第n1+1级语音特征至该第N级语音特征的运算;
该客户端进行该第一语音的第1级语音特征至第n1级语音特征的运算所耗费的时间,为运算各该级语音特征所耗费时间之和,即
该服务器端进行该第一语音的第n1+1级语音特征至该第N级语音特征的运算所耗费的时间,为运算各该级语音特征所耗费时间之和,即
Figure FSB00000345752400022
运算该第一语音的该共N级语音特征所耗费的时间,为在该客户端运算所耗费的时间与在服务器端运算所耗费的时间之和,即
Figure FSB00000345752400023
该第一输出时间为运算该第一语音的该共N级语音特征所耗费的时间、该网络传送该第一语音所耗费的时间以及该网络传回一识别结果所耗费的时间之和,即
Figure FSB00000345752400031
5.如权利要求3所述的方法,其特征在于:
该步骤(d2)还包含:
(d21)提供一n2值,其在该N的范围内;以及
(d22)由该客户端进行该第二语音的第1级语音特征至第n2级语音特征的运算,而由该服务器端进行该第二语音的第n2+1级语音特征至该第N级语音特征的运算;
该客户端进行该第二语音的第1级语音特征至第n2级语音特征的运算所耗费的时间,为运算各该级语音特征所耗费时间之和,即
该服务器端进行该第二语音的第n2+1级语音特征至该第N级语音特征的运算所耗费之时间,为运算各该级语音特征所耗费时间之和,即
Figure FSB00000345752400033
运算该第二语音的该共N级语音特征所耗费的时间,为在该客户端运算所耗费的时间与在服务器端运算所耗费的时间之和,即
Figure FSB00000345752400034
该第二输出时间为运算该第二语音的该共N级语音特征所耗费的时间、该网络传送该第二语音所耗费的时间以及该网络传回一识别结果所耗费的时间之和,即
Figure FSB00000345752400035
6.一种录音同步语音特征计算最佳化的方法,其用于一录音同步语音特征计算系统,该系统包含一服务器端、一客户端及一网络,该方法通过对一由N’个帧所组成的语音进行总共N级的语音特征运算完成识别,其中N及N’分别为一正整数,其中在该N的范围内任取一i值用以代表第i级语音特征,其中在该N’的范围内任取一n’值用以代表第n’个帧,其特征在于,包含如下步骤:
(a)提供一n值,其位于该N的范围内;
(b)输入该语音,该录音同步语音特征计算系统同步对该语音进行语音特征运算,其中由该客户端进行该语音的各该帧的第1级语音特征至第n级语音特征的运算,且在该客户端运算该第i级语音特征所耗费时间相对于输入该语音所耗费时间的倍数为Ta(i)、而该客户端进行该语音的第1级语音特征至第n级语音特征的运算所耗费的时间,为运算各该级语音特征所耗费时间之和,即
Figure FSB00000345752400041
而由该服务器端进行该语音的各该帧的第n+1级语音特征至第N级语音特征的运算,该服务器的负载为c,且在该服务器端该第i级语音特征运算所耗费时间相对于输入该语音所耗费时间的倍数为Tb(i)、而该服务器端进行该语音的第n+1级语音特征至该第N级语音特征的运算所耗费的时间,为运算各该级语音特征所耗费时间之和,即
Figure FSB00000345752400042
(b1)该语音具有一数据量Dn(Tinput)、该网络的负载为d、该网络传输该语音的时间为Dn(Tinput)/d、传识别结果的大小为K、传回该识别结果所耗费的时间K/d由上述在客户端运算各该级语音特征所耗费时间之和上述在服务器端运算各该级语音特征所耗费时间之和
Figure FSB00000345752400044
可得到该语音的输出时间为
Figure FSB00000345752400045
的一方程式(1);
(b2)重复步骤(b1)以输入一第一语音与一第二语音而得到该第一语音与该第二语音的输出时间,通过方程式(1)的联立以获得该服务器的负载c与该网络的负载d;
(c)当该语音输入结束,其耗费一输入时间Tinput,且该录音同步语音特征计算系统已完成n’个帧的运算,且第n’+1个帧已完成第n1级的语音特征运算,则根据该n1值可经由一适当方式修正该n值,其使得识别该语音所耗费的时间Toutput为最小,其中该适当方式为:
(c1)若该n1值小于该n值时,则利用
n = Arg n ( Min ( T input * [ ( Σ i = 1 n Ta ( i ) + 1 c Σ i = n + 1 N Tb ( i ) ) + Σ i = n 1 n Ta ( i ) + 1 c Σ i = n + 1 N Tb ( i ) ] + 1 d Dn ( T input ) + 1 d K ) )
求取所欲修正的该n值,其中
Figure FSB00000345752400052
为尚未运算的语音特征运算,依据所修正的n值分配给该客户端与该服务器端运算所耗费的时间、而
Figure FSB00000345752400053
为第n’+1个帧尚未完成处理的特征运算,依据所修正的n值分配给该客户端与该服务器端运算所耗费的时间;以及
(c2)若该n1值大于或等于该n值时,则利用
n = Arg n ( Min ( T input * [ ( Σ i = 1 n Ta ( i ) + 1 c Σ i = n + 1 N Tb ( i ) ) + 1 c Σ i = n 1 + 1 N Tb ( i ) ] + 1 d Dn ( T input ) + 1 d K ) )
求取所欲修正的该n值,其中
Figure FSB00000345752400055
为第n’+1个帧尚未完成处理的特征运算,在此完全交由服务器端运算;以及
(d)依据步骤(c)所修正的该n值,由该客户端进行尚未完成运算的各该帧的第1级语音特征至第n级语音特征的运算,而由该服务器端进行尚未完成运算的各该帧的第n+1级语音特征至该第N级语音特征的运算。
CN2005100042537A 2005-01-06 2005-01-06 语音/语者识别系统的负载最佳化方法 Expired - Fee Related CN1801323B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2005100042537A CN1801323B (zh) 2005-01-06 2005-01-06 语音/语者识别系统的负载最佳化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2005100042537A CN1801323B (zh) 2005-01-06 2005-01-06 语音/语者识别系统的负载最佳化方法

Publications (2)

Publication Number Publication Date
CN1801323A CN1801323A (zh) 2006-07-12
CN1801323B true CN1801323B (zh) 2011-03-16

Family

ID=36811270

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005100042537A Expired - Fee Related CN1801323B (zh) 2005-01-06 2005-01-06 语音/语者识别系统的负载最佳化方法

Country Status (1)

Country Link
CN (1) CN1801323B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103325371A (zh) * 2013-06-05 2013-09-25 杭州网豆数字技术有限公司 基于云的语音识别系统与方法
US10878318B2 (en) * 2016-03-28 2020-12-29 Google Llc Adaptive artificial neural network selection techniques

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6487534B1 (en) * 1999-03-26 2002-11-26 U.S. Philips Corporation Distributed client-server speech recognition system
CN1384489A (zh) * 2002-04-22 2002-12-11 安徽中科大讯飞信息科技有限公司 分布式语音合成系统
CN1521953A (zh) * 2003-01-29 2004-08-18 ̨����ӹ�ҵ�ɷ����޹�˾ 以手持通讯设备计算处理自然语言的装置及方法
CN1540626A (zh) * 2003-04-25 2004-10-27 台达电子工业股份有限公司 利用双音模型实现混合多国语言的语音辨识装置及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6487534B1 (en) * 1999-03-26 2002-11-26 U.S. Philips Corporation Distributed client-server speech recognition system
CN1384489A (zh) * 2002-04-22 2002-12-11 安徽中科大讯飞信息科技有限公司 分布式语音合成系统
CN1521953A (zh) * 2003-01-29 2004-08-18 ̨����ӹ�ҵ�ɷ����޹�˾ 以手持通讯设备计算处理自然语言的装置及方法
CN1540626A (zh) * 2003-04-25 2004-10-27 台达电子工业股份有限公司 利用双音模型实现混合多国语言的语音辨识装置及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
孟建庭,吴及,王作英.分布式语音识别系统的架构分析和具体实现.语音技术.2004,第51-53页. *
王珩,杜利民.交互式语音对话系统中的负载平衡技术.计算机应用与软件21 1.2004,21(1),第33-34页.
王珩,杜利民.交互式语音对话系统中的负载平衡技术.计算机应用与软件21 1.2004,21(1),第33-34页. *

Also Published As

Publication number Publication date
CN1801323A (zh) 2006-07-12

Similar Documents

Publication Publication Date Title
Eyben et al. Affect recognition in real-life acoustic conditions-a new perspective on feature selection
CN110459241B (zh) 一种用于语音特征的提取方法和系统
US20060253285A1 (en) Method and apparatus using spectral addition for speaker recognition
CN109496334A (zh) 用于评估语音质量的设备和方法
CN106611598A (zh) 一种vad动态参数调整方法和装置
CN110276491A (zh) 粉丝预测管理方法、装置、计算机设备及存储介质
Dubey et al. Non-intrusive speech quality assessment using several combinations of auditory features
EP0779609A2 (en) Speech adaptation system and speech recognizer
CN115602165B (zh) 基于金融系统的数字员工智能系统
CN105740354A (zh) 自适应潜在狄利克雷模型选择的方法及装置
CN115426582B (zh) 一种耳机音频处理方法及装置
JP2002109208A (ja) 信用リスク管理方法、分析モデル決定方法、分析サーバ及び分析モデル決定装置
CN1801323B (zh) 语音/语者识别系统的负载最佳化方法
CN112201227B (zh) 语音样本生成方法及装置、存储介质、电子装置
Song et al. Auditory scene analysis-based feature extraction for indoor subarea localization using smartphones
CN113763928A (zh) 音频类别预测方法、装置、存储介质及电子设备
CN110347426B (zh) 一种智能发布app平台系统及其方法
CN111402918A (zh) 一种音频处理方法、装置、设备及存储介质
CN113450811B (zh) 对音乐进行通透处理的方法及设备
CN114969295A (zh) 基于人工智能的对话交互数据处理方法、装置及设备
Fu et al. Speech quality objective assessment using neural network
EP0435336B1 (en) Reference pattern learning system
Ganapathy et al. Temporal resolution analysis in frequency domain linear prediction
CN113724705A (zh) 语音应答方法、装置、设备及存储介质
CN113297540A (zh) 在边缘物联代理服务下的app资源需求预测方法、装置及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110316

Termination date: 20150106

EXPY Termination of patent right or utility model