CN108352160B - 用于运行服务器系统和记录语音指令的记录装置的方法、服务器系统、记录装置和语音对话系统 - Google Patents
用于运行服务器系统和记录语音指令的记录装置的方法、服务器系统、记录装置和语音对话系统 Download PDFInfo
- Publication number
- CN108352160B CN108352160B CN201680068038.XA CN201680068038A CN108352160B CN 108352160 B CN108352160 B CN 108352160B CN 201680068038 A CN201680068038 A CN 201680068038A CN 108352160 B CN108352160 B CN 108352160B
- Authority
- CN
- China
- Prior art keywords
- session
- server
- voice
- activation signal
- recording device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000004913 activation Effects 0.000 claims abstract description 96
- 238000012545 processing Methods 0.000 claims abstract description 33
- 230000003213 activating effect Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 4
- 238000003860 storage Methods 0.000 claims description 4
- 238000009826 distribution Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000002085 persistent effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 239000012073 inactive phase Substances 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000007420 reactivation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/14—Session management
- H04L67/141—Setup of application sessions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/14—Session management
- H04L67/146—Markers for unambiguous identification of a particular session, e.g. session cookie or URL-encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/06—Selective distribution of broadcast services, e.g. multimedia broadcast multicast service [MBMS]; Services to user groups; One-way selective calling services
- H04W4/10—Push-to-Talk [PTT] or Push-On-Call services
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Telephonic Communication Services (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明涉及一种用于运行具有至少一个服务器(112)的服务器系统(102)的方法,该服务器用于处理由记录装置(104)记录的语音指令(111),记录装置经由接口(106)连接到服务器系统(102)。在这里,当记录语音指令(111)时,由记录装置(104)经由接口(106)提供的会话激活信号(114)被读入。然后,检查在会话激活信号(114)与会话ID之间是否存在关联。如果发现会话激活信号(114)和会话ID之间存在关联,则在另外的步骤中确定在先服务器(112)的可用性,在先服务器在会话激活信号(114)被读入之前处理与会话ID相关联的会话。然后,如果确定在先服务器(112)可用,则在在先服务器(112)上激活会话。然而,如果确定在先服务器(112)不可用,则通过从会话数据库(116)加载会话,在服务器系统(102)的空闲服务器上激活会话。最后,语音指令在会话激活期间也或者在会话激活之后被对应的服务器接收以便被处理。
Description
技术领域
本发明涉及用于运行服务器系统的方法、服务器系统和语音对话系统。
背景技术
US 2007/0124149A1描述了一种用于处理和执行电子设备的至少一个语音控制功能的语音控制链接模块,该电子设备具有用于存储该功能的语音控制数据库。
发明内容
在这种背景下,利用这里介绍的方案提出一种用于运行具有用于处理语音指令的至少一个服务器的服务器系统的方法,一种用于运行用于记录语音指令的记录装置的方法,一种服务器系统,一种记录装置,一种语音对话系统以及最后一种相应的计算机程序。
在此介绍的方案提出了一种用于运行具有至少一个服务器的服务器系统的方法,该服务器用于处理由记录装置记录的语音指令,记录装置经由接口连接到服务器系统,其中,方法包括以下步骤:
读入会话激活信号,会话激活信号表示在由记录装置记录到语音指令时或记录到语音指令之前通过接口提供的信号;
检查在会话激活信号与会话ID之间是否存在关联;
当在检查步骤中得出在会话激活信号和会话ID之间存在关联时,确定在先服务器的可用性,在先服务器在会话激活信号被读入之前处理与会话ID相关联的会话;
当在确定步骤中得出在先服务器可用时,在在先服务器上激活会话,和/或当在确定步骤中得出在先服务器不可用时,则通过从会话数据库加载与会话相关联的数据,在空闲服务器上激活会话;并且
在激活会话期间和/或在激活会话之后通过接口接收语音指令。
例如,服务器系统可以被理解为基于云的服务器系统。语音指令可以被理解为以语音单词、语音句子或由这样的单词或句子形成的序列的形式所存录的声学指令。特别地,接口可以是用于在服务器系统和记录装置之间的数据的无线传输的接口。记录装置可以被理解为被语音控制的设备,例如导航仪或信息娱乐系统,免提设备或用于控制车辆功能的其它控制器。服务器系统和记录装置可以形成以语音对话系统为形式的客户端服务器系统,其中该记录装置充当客户端。
例如响应于记录装置的相应的开关的致动或在说出用于激活记录装置的记录功能的特定关键字时,可以例如在记录语音指令之前、开始时或开始后不久提供会话激活信号。
会话ID可以理解为用于明确标识会话的特征。会话ID能够用于识别记录装置的多个相关请求并且将该请求配属给会话。会话可以被理解为记录装置和服务器之间的存立的连接。例如,会话ID可以由服务器在会话开始时生成,并且随着服务器的响应向记录装置传输。在这种情况下,记录装置可以在对服务器的每个另外的访问时一同提供会话ID。借助于会话ID,服务器端存储的数据可以在每次访问时明确与记录装置连接。例如,不包含会话ID的记录装置的请求可以被计为新会话的第一请求。在现有会话期间或会话结束时,涉及会话的数据可以由处理会话的服务器存储在会话数据库中。当会话在稍后时刻在另外的服务器上继续时,这些数据可以从会话数据库加载到该另外的服务器上。
空闲服务器可以被理解为服务器系统的与在先服务器不同的可用的、即运行就绪的服务器。例如,在确定步骤中,如果在先服务器不可用,则可以确定空闲服务器。
会话数据库可以被理解为存储用于处理语音指令的各种被解除激活的会话的会话数据的存储器。相应地,在激活步骤中,可以通过空闲服务器加载相应的会话数据而再激活这样的被解除激活的会话。例如,可以从服务器系统的每个服务器检索会话数据库。
分别按照实施方式,当相应会话的激活仍在进行或已经结束时,则可以接收语音指令。在第一种情况下,例如可以暂存语音指令,直到会话完全加载;在第二种情况下,语音指令可以被接收后直接在会话中进一步处理。
这里所描述的方案是基于这样的知识,通过提早激活用于在服务器端处理语音指令的会话,可以避免或至少显著减少在处理语音指令时的延迟时间。有利的是,这种会话的激活可以在相应的记录装置记录语音指令的时段期间发生。因此,可以在向语音识别服务器传输语音指令之前激活会话,从而在传输后立即在会话中评估语音指令。
这种高效的会话管理特别适用于云中的高度可扩展的语音对话系统。例如,针对在具有非常高的客户端数量的分布式客户端服务器系统中的语音,服务器对话管理器可以在没有长的时间延迟的情况下进行高效扩展。因此,可以改进用于长时间运行的语音对话的包括嵌入式系统和服务器后端的整个系统,使得对于尽可能多的客户端,只需要尽可能少量的服务器。分别按照实施方式,在需要时可以给单个客户端动态地分配新服务器,例如根据需要在云中提供该新服务器。此外,可以在长时间运行的语音对话中设置复杂的会话状态,而在这里不会对用户造成很长的时间延迟。
由于在具有很多客户端和长时间运行的对话的后端语音对话系统中,可以结合嵌入式客户端来实现语音对话系统的水平可扩展性,而不会对于语音对话系统的用户产生在不活动会话的再激活时的明显的延迟时间,因此得到了下述优点:
这种语音对话系统可以为服务器资源相对较低的大量客户端提供服务,办法是:在用户端短时间处于非活动状态时,可以在相应的服务器上停用会话,并且被释放的服务器资源又可以分配给其他客户端。因此,可以提高总系统的经济性。
也就是说,可以通过根据可用性和利用率将客户端的请求传送到服务器系统的不同服务器,将请求灵活地分配到现存的计算能力上。这也实现了云资源的动态接通和关断,并且因此实现了使用服务器资源的按使用付费的支付模式。
如前所述,这里描述的方案的主要优点是,用户借助于响应延迟时间不会感知到请求中恰好活动的服务器会话与请求中未活动的服务器会话之间的差异。
这是通过利用总系统的语言对话特定属性来完成的。例如,为了记录语音指令,所谓的即按即说按钮可以被按下也或者说出所谓的热字,以用信号通知以记录装置为形式的客户端设备语音输入的开始。可以要求用户例如利用声学信号并且根据系统配置也通过语音提示说话,于是用户说出语音指令并且相应的音频流被发送到对话系统。在按下即按即说按钮或识别到热词和终止说出语音指令之间的时段现在能够用于再激活会话状态。因此,可以避免超过语音操作系统正常延迟的延迟时间。
分别按照实施方式,这里描述的方案也可以用于语音指令不是一次发送而是作为流发送的系统场景中。在这种情况下,例如会话激活信号已经可以在流开始时被发送以激活会话。
根据一个实施方式,该方法可以包括处理语音指令的步骤。在这里,当会话在在先服务器上被激活时,可以使用该在先服务器在会话中处理语音指令。附加地或备选地,当该会话在空闲服务器上已激活时,可以使用空闲服务器来处理语音指令。由于语音指令可以分别按照可用性由服务器系统的不同服务器处理,因此可以改善服务器系统的效率。
也有利的是,当在接收到语音指令时会话还未激活时,在暂存步骤中暂存语音指令。由此可以在会话激活之后立即处理语音指令,因此可以减少在接收和处理语音指令之间的延迟时间。
根据另外的实施方式,当在检查步骤中得出,在会话激活信号与会话ID之间不存在关联时,在确定步骤中确定空闲服务器。在此,在创建步骤中通过空闲服务器创建新的会话ID,在激活步骤中在空闲服务器上激活与新会话ID相关联的新会话,并且在接收步骤中在激活新会话期间和/或在激活新会话之后接收语音指令。由此,即使在启动新会话时,也实现快速和高效地分配服务器系统的服务器资源。
有利的是,当在确定步骤中得出在先服务器不可用时,在确定步骤中确定空闲服务器。由此即使在先服务器不可用,也可以执行会话。
此外,在读入步骤中还读入至少一个另外的会话激活信号,会话激活信号表示在记录另外的语音指令时由经过接口与服务器系统相连接的另外的记录装置所提供的信号。相应地,在检查步骤中,检查在另外的会话激活信号与另外的会话ID之间是否存在关联。当在检查步骤中得出在另外的会话激活信号和另外的会话ID之间存在关联时,则在确定步骤中能够确定另外的在先服务器的可用性,另外的在先服务器在另外的会话激活信号被读入之前处理与另外的会话ID相关联的另外的会话。当在确定步骤中得出另外的在先服务器可用时,则在激活步骤中能够在另外的在先服务器上激活另外的会话。附加地或备选地,当在确定步骤中得出另外的在先服务器不可用时,则能够通过从会话数据库加载与另外的会话相关联的数据,在空闲服务器上或者在另外的空闲服务器上,或者在空闲服务器上并且在另外的空闲服务器上激活另外的会话。最后,在接收步骤中,在激活另外的会话期间,并且附加地或备选地在激活另外的会话之后接收另外的语音指令。例如,记录装置和记录装置可以安装在不同的车辆中并且通过合适的无线通信连接与服务器系统连接。由此,多个记录装置的语音指令可以由同一个服务器系统处理,由此记录装置可以较不复杂并且因此较便宜地制成。
这里提出的方案还提供了一种用于运行用于记录语音指令的记录装置的方法,其中,记录装置经由接口与用于处理语音指令的至少一个服务器的服务器系统连接,其中,所述方法包括以下步骤:
当记录到语音命令时,向接口提供会话激活信号,以便激活用于在服务器上处理语音指令的会话。
这种方法能够例如在软件中或硬件中或在软件和硬件的混合形式中例如在控制器中实施。
此外,这里介绍的方案提供了具有以下特征的服务器系统:
用于处理语音指令的至少一个服务器,语音指令表示由经由接口与服务器系统连接的记录装置所记录的语音指令;
用于读入会话激活信号的读入单元,会话激活信号表示在记录到语音指令时通过接口提供的会话激活信号;
检查单元,用于检查在会话激活信号与会话ID之间是否存在关联;
确定单元,用于当在会话激活信号和会话ID之间存在关联时,确定在先服务器的可用性,在先服务器在会话激活信号被读入之前处理与会话ID相关联的会话;
会话数据库;
激活单元,用于当在先服务器可用时,在在先服务器上激活会话,和/或用于当在先服务器不可用时,则通过从会话数据库加载与会话相关联的数据,在空闲服务器上激活会话;以及
接收单元,用于在激活会话期间和/或在激活会话之后接收语音指令。
例如,读入单元、检查单元和确定单元可以被实现为服务器系统的负载分配单元(英语也称为负载平衡器)的组件。另一方面,接收单元或激活单元可以例如被实现为被分配给单个服务器的会话管理单元的组件。备选地,接收单元或激活单元也可以集成到负载分配单元中。例如,会话数据库可以被构造成与服务器系统的不同服务器的相应会话管理单元进行通信。
这种服务器系统实现语音指令的快速的以及成本节约和资源节约的处理。
此外,这里介绍的方案提供了一种用于记录语音指令的记录装置,其中,记录装置具有下述特征:
接口,该接口通往具有用于处理语音指令的至少一个服务器的服务器系统;以及
提供单元,提供单元被构造成:在记录到语音指令时,把用于激活用于在服务器上处理语音指令的会话的会话激活信号向接口提供。
由于语音指令的处理不是由记录装置本身实现,而是借助于外部服务器系统实现,因此可以简化记录装置的制造。此外,由此可以方便新的语音指令的实施。
最后,这里介绍的方案提供了具有以下特征的语音对话系统:
根据前述实施方式的服务器系统;和
根据前述实施方式所述的通过接口与服务器系统连接的至少一个记录装置。
例如,语音对话系统可以是基于云的系统,在该系统中可以分别按照需要来快速和简单地添加或移除单个服务器来处理语音指令。由此使得语音对话系统能够特别高效且节省成本地运行。例如,语音对话系统可以把对于处理语音指令所需的步骤分配到多个组件上。这些组件可以例如分配到不同的服务器上。
也有利的是一种计算机程序产品或有程序代码的计算机程序,程序代码能够被储存在计算机可读的载体或存储介质、如半导体存储器、硬盘存储器或光学的存储器上并且被用来执行、实施和/或操控按前述实施方式之一所述的方法的步骤,尤其是当该程序产品或程序在计算机上或在装置上运行时。
附图说明
在附图中示出本发明的实施例并且在随后的说明中更加详细地阐释本发明的实施例。其中:
图1示出了根据一个实施例的语音对话系统的示意图;
图2示出了根据一个实施例的语音对话系统的示意图;
图3示出了根据一个实施例的服务器系统的示意图;
图4示出了根据一个实施例的用于运行服务器系统的方法的流程图;以及
图5示出了根据一个实施例的用于运行记录装置的方法的流程图。
具体实施方式
在本发明的适当的实施例的接下来的说明中,对于在不同的附图中示出的并且相似地起作用的元件使用相同的或相似的附图标记,其中,省去对这些元件的重复说明。
图1示出了根据一个实施例的语音对话系统100的示意图。语音对话系统100包括服务器系统102以及具有提供单元105的记录装置104。记录装置104经过接口106与服务器系统102连接。根据这个实施例,接口106包括记录装置104的连通模块108以及服务器系统102的负载分配单元110(英语称为负载平衡器)。例如,连通模块108和负载分配单元110被构造成经由无线数据连接彼此通信。记录装置104被构造成记录由记录装置104的用户所说出的语音指令111并且经由接口106传送到服务器系统102。服务器系统102例如被实现为具有连接到负载分配单元110并且被构造成处理经由负载分配单元110读入的语音指令111的服务器112。分别按照实施例,服务器系统102也能够被实现为具有两个或两个以上的这种服务器。例如,语音对话系统100是基于云的。
提供单元105被构造成在记录到语音指令111时提供会话激活信号114并且将该会话激活信号发送到连通模块108。连通模块108将会话激活信号114发送到负载分配单元110。负载分配单元110然后检查,是否在会话激活信号114和会话ID之间存在关联,也就是说,是否会话激活信号114被分配给已经现存的会话,以用于借助于服务器系统102的服务器来处理语音指令111。如果是这种情况,则负载分配单元110确定最后处理了与会话激活信号114相关联的相应于会话ID的会话的服务器,并且确定是否该服务器在接收会话激活信号114的时刻是可用的。
例如,图1中的负载分配单元110确定,服务器112最后已经处理会话并且可以同时是可用的,也就是说,服务器112上的会话仍然活动。相应地,负载分配单元110将语音指令111继续向服务器112传送,使得服务器可以处理在仍然活动的会话中的语音指令111。
不同地,如果负载分配单元110确定到服务器112不可用并且服务器系统102的其它服务器可用,则负载分配单元110在其它服务器上相应地激活会话。为此,其它服务器从服务器系统102的会话数据库116中加载与会话有关的会话数据。
在会话激活之后,其它服务器从负载分配单元110接收语音指令111,以便在经激活的会话中处理该语音指令。备选地,其它服务器在激活会话期间已经接收到语音指令111。由于该会话借助于会话激活信号114已经在记录到语音指令111的开始时被激活,因此能够避免在语音指令111接下来被处理时的时间延迟,这意味着,当语音指令111由其它服务器接收到时,会话已经被完全激活。
用于机动车中的信息娱乐系统的嵌入式设备可以例如借助于本地对话管理器进行控制,本地对话管理器可以正好用于该设备,并且基本上为正好一个用户提供服务。然而,这种本地对话管理器通常在交付诸如车辆之类的嵌入式系统之后很难匹配,并且只能利用在嵌入式系统中安装的计算机组件的有限资源运行。为了防止这种情况,整个对话管理器或对话管理器的至少一部分可以转移到服务器后端。这具有的优点是,所有客户端的对话管理器都可以在服务器后端中集中匹配和更新。
为了将这种服务器系统扩展到以不同记录设备为形式的许多客户端,这些客户端的请求借助于一个或多个负载分配单元可以被分配到服务器系统的多个实例上。因此可以实现所谓的水平可扩展性,其中可以通过在后端添加另外的服务器来增加客户端的数量。分别按照应用情况,服务器系统的单个服务器可以例如同时为多个客户端提供服务。由于并非所有的客户端同时处于活动状态,因此可以将所需服务器的数量保持尽可能小,从而将尽可能多的客户端会话分配到尽可能少的服务器上。
通常,在长时间运行的交易中(如在语音对话中),当前未处于活动状态的客户端会话保持在持久存储介质中,由此可以将所需的计算资源分配给活动客户端。当再激活客户端时,相应服务器上的会话可以从持久存储器中再激活。服务器现在可以在客户端处于其非活动阶段之前继续进行长时间运行的对话。但是,对于非常大的会话,例如用于复杂的语音对话和场景模型,再激活相应的对话会话可能持续很长时间使得出现了明显的延迟时间。
后端中的服务器的数量可以例如静态地关于以下方面被调整:在极端情况下同时有多少客户端活动,以及在极端情况下相应于同时活动的客户端的数量而需要多少计算能力。
备选地,可以使用所谓的云平台,云平台允许在几秒或几分钟内提供新的服务器。由此后端能够根据活动客户端的数量动态增长或减少,这意味着,服务器可以动态添加到云中或从云中移除。
为了避免或缩短这个延迟时间,通过语音待操作的记录装置104例如包括连通模块108,连通模块被构造成经由WLAN、GSM、LTE、以太网或蓝牙建立提供单元105与基于web的服务器系统102之间的连接。可选地,连通模块108包括用于认证、授权和加密提供单元105与服务器系统102之间的数据传输的安全模块。
在记录装置104中还集成了语音操作系统,语音操作系统包括用于记录语音指令111的麦克风118和用于再现诸如语音消息之类的声学信号的语音输出单元120。
在服务器端,语音对话系统100包括负载分配单元110以及基于云的服务器系统102,该服务器系统具有语音识别器122、对话管理器124、可选的文本到语音引擎126、会话管理器128和会话数据库116。备选地,语音对话系统的一部分,特别是语音识别器122,文本到语音引擎126也可以驻留在一个或多个另外的服务器上并且通过网络通信连接到服务器112。
根据在图1中示出的实施例,对话管理器124、语音识别器122、文本到语音引擎126和会话管理器128被实现为服务器112的组件。
以下描述语音对话系统100的工作方式。
当记录装置104的用户激活记录装置104的记录开关(也称为即按即说按钮)或说出用于通过记录装置104的语音操作系统开始记录的关键字(也称为热字)时,记录装置104通过连通模块108把以会话激活信号114为形式的会话激活命令向基于云的服务器系统102继续传输。会话激活信号114的接收通过负载分配单元110进行。
在会话激活信号114的处理时可以在三种情况之间进行区分。
在第一种情况下,会话激活信号114和会话ID之间没有关联。在这种情况下,负载分配单元110使用诸如轮询的标准算法以便将没有会话ID的请求(即,新会话)向服务器112的会话管理器128继续传输。除了服务器112之外,服务器系统102可以包括多个其他服务器,其中,分别按照可用性,可以将请求向多个其他服务器中的一个服务器继续传输,而不是向服务器112继续传输。会话管理器128然后创建新的会话ID并且触发对话管理器124。对话管理器124被构造成使用语音识别器122、文本到语音引擎126以及应用功能和必要时使用外部服务来管理用户对话,并且经由连通模块108、语音操作系统或记录设备104的其它接口与用户进行交互。
在第二种情况下会话已经存在。如果向服务器的消息获得会话ID,则负载分配单元110尝试将该请求向至今已经处理会话的服务器继续传输。如果该服务器不可用或满负荷,则负载分配单元110将会话向另一可用服务器继续传输,如下所述。如果相关的服务器可用,例如图1中的服务器112,则会话管理器128检查相应会话的会话ID是否仍然在服务器112上是活动的。如果是这样,那么会话管理器128就干脆就继续使用该会话。如果不是这样,则再激活相应的会话,如下所述。
在第三种情况下,已经存在会话,但会话被解除激活。例如由于以下原因,会话是不活动的。
会话坚持为其他客户端释放计算能力或存储器,从而虽然服务器先前已经处理过会话,但该会话不再处于服务器的活动存储器中。另外的原因能够在于,先前已经处理过会话的服务器在这期间不再可用,例如因为服务器超载或失效或恰好被更新,因此会话现在必须由其它服务器处理。
如果以会话激活信号114为形式的会话发起命令到达这样的空闲服务器,那么该空闲服务器使用其会话管理器,以便从公共使用的会话数据库116中加载会话,并且通知负载分配单元110该空闲服务器处理该会话。如果语音指令111现在被记录装置114发送到空闲服务器,则会话已经被激活,因此可以直接处理语音指令111。
如果会话的加载持续很长时间,则空闲服务器可以暂存在等待队列中的后续请求并且在成功激活会话之后立即处理后续请求。在这种情况下,至少可以以语音指令111的讲话持续时间或流的第一部分的传输持续时间为幅度减少该延迟。
图2示出了根据一个实施例的语音对话系统100的示意图。语音对话系统100例如是先前借助于图1所述的语音对话系统。示出了具有负载分配单元110和服务器112的服务器系统102。与图1不同,利用用于处理语音命令的另一个服务器200来实现根据这个实施例的服务器系统102。另一个服务器200,如服务器112一样,连接到负载分配单元110和会话数据库116。此外,除了记录装置104,语音对话系统100包括另外的记录装置202,该另外的记录装置被构造成在记录到另外的语音指令204时提供另外的会话激活信号206并且发送到负载分配单元110。相应地,负载分配单元110被构造成检查是否在另外的会话激活信号206和另外的会话ID之间存在关联,并且在关联的情况下,确定是否先前已经处理了与另外的会话ID相关联的另外的会话的服务器可用。例如,可用的服务器是另外的服务器200。该另外的会话现在该另外的服务器200上被激活,该另外的服务器200从会话数据库116加载该另外的会话。类似于语音指令111的处理,该另外的语音指令204分别按照实施例已经在该另外的会话的激活期间也或者直接在激活该另外的会话之后被该另外的服务器200接收。
如在图2中可以看到的那样,记录装置104被安装到第一车辆208中并且另外的记录装置202被安装到第二车辆210中。
图3示出了根据一个实施例的服务器系统102的示意图。服务器系统102例如是先前借助于图1所述的服务器系统。根据这个实施例,负载分配单元110被实现为具有读入单元300、检查单元302和确定单元304。读入单元300被构造成读入语音指令111以及会话激活信号114。该检查单元302被构造成从读入单元300接收会话激活信号114,使用会话激活信号114以检查是否会话激活信号114能够与会话ID相关联,并且在现有的关联的情况下,将相应的关联信号306发送给确定单元304。确定单元304被构造成使用关联信号306来确定服务器112的可用性,该服务器在通过读入单元300读入会话激活信号114之前已经处理与会话ID相关联的会话。如果确定单元304已经确定了服务器112的可用性,则确定单元将对应的激活信号308发送到服务器112的激活单元310。激活单元310例如被实现为服务器112的会话管理器的组件。激活单元310被构造成使用激活信号308来继续服务器112上的与会话ID相关联的会话,或者通过从会话数据库116加载相应的会话数据而再激活会话,只要该会话被解除激活即可。
激活单元310还被构造成在激活会话之后也或者已经在激活会话期间就将接收信号312发送至服务器112的接收单元314。接收单元314被构造成使用接收信号312从读入单元300接收语音指令111。现在在通过激活单元110所激活的会话中处理该语音指令111。
正如激活单元310那样,接收单元314也可以被实现为服务器112的会话管理器的组件。
图4示出了根据一个实施例的用于运行服务器系统的方法400的流程图。该方法400可以例如结合上面借助于图1至图3描述的服务器系统来执行。在这里在步骤410中,首先读入在记录语音指令时经由接口提供的会话激活信号。在另外的步骤420中,检查是否会话激活信号具有会话ID。如果会话激活信号具有会话ID,则在步骤430中确定是否在先服务器(在先服务器在读入会话激活信号之前已经处理了与会话ID相关联的会话)可用。如果在先服务器可用,则在步骤440中在在先服务器上激活会话。不同地,如果在先服务器不可用,则会话在步骤440中借助于服务器系统的其它空闲服务器通过从会话数据库加载会话而被激活。在激活会话之后,在步骤450中,接收语音指令以用于在对应的服务器上在被激活的会话中处理该语音指令。备选地,在激活会话期间,在步骤450中接收语音指令。
图5示出了根据一个实施例的用于运行记录装置的方法500的流程图。该方法500可以例如结合上面借助于图1至图3描述的用于记录语音指令的记录装置来执行。方法500包括步骤510,在该步骤中,只要在步骤505中通过记录装置的用户而启动语音指令的记录,诸如通过致动该记录装置的相应的记录按钮或通过说出关键字而开始记录,会话激活信号就被提供用于激活服务器会话以用于处理语音指令。如果实施例包括在第一特征和第二特征之间的“和/或”关联,则这被解读如下:实施例根据一个实施方式具有第一特征和第二特征,并且根据另一实施方式要么仅具有第一特征要么仅具有第二特征。
Claims (9)
1.一种用于运行服务器系统(102)的方法(400),所述服务器系统具有:
用于处理语音指令(111)的至少一个服务器(112),所述语音指令由经由接口(106)与所述服务器系统(102)连接的记录装置(104)记录,其中,所述方法(400)包括以下步骤:
读入(410)会话激活信号(114),所述会话激活信号表示在由所述记录装置(104)记录所述语音指令(111)时或记录所述语音指令(111)之前通过所述接口(106)提供的信号;
检查(420)在所述会话激活信号(114)与会话ID之间是否存在关联;
当在所述检查(420)步骤中得出在所述会话激活信号(114)和所述会话ID之间存在关联时,则确定(430)在先服务器(112)的可用性,所述在先服务器在所述会话激活信号(114)被读入之前已经处理与所述会话ID相关联的会话;
当在所述确定(430)步骤中得出所述在先服务器(112)可用时,则在所述在先服务器(112)上激活(440)所述会话,和/或当在所述确定(430)步骤中得出所述在先服务器(112)不可用时,则通过从会话数据库(116)加载与所述会话相关联的数据,在空闲服务器(200)上激活(440)所述会话;并且
在激活所述会话期间和/或在激活所述会话之后通过所述接口(106)接收(450)所述语音指令(111)。
2.根据权利要求1所述的方法(400),具有以下步骤:当所述会话在所述在先服务器(112)上已被激活时,使用所述在先服务器(112)处理在所述会话中的语音指令(111),和/或当所述会话在所述空闲服务器(200)上已被激活时,使用所述空闲服务器(200)处理在所述会话中的语音指令(111)。
3.根据权利要求1或2所述的方法(400),具有以下步骤:在接收到所述语音指令(111)的情况下所述会话尚未激活时,暂存所述语音指令(111)。
4.根据权利要求1或2所述的方法(400),其中当在所述检查(420)步骤中得出,在所述会话激活信号(114)与所述会话ID之间不存在关联时,在所述确定(430)步骤中确定所述空闲服务器(200),其中,在创建步骤中通过所述空闲服务器(200)创建新的会话ID,在所述激活(440)步骤中在所述空闲服务器(200)上激活与新会话ID相关联的新会话,并且在所述接收(450)步骤中在激活所述新会话期间和/或在激活所述新会话之后接收所述语音指令(111)。
5.根据权利要求1或2所述的方法(400),其中当在所述确定(430)步骤中得出所述在先服务器(112)不可用时,在所述确定(430)步骤中确定所述空闲服务器(200)。
6.根据权利要求1或2所述的方法(400),其中在所述读入(410)的步骤中还读入至少一个另外的会话激活信号(206),所述另外的会话激活信号表示在记录另外的语音指令(204)时由经过所述接口(106)与所述服务器系统(102)相连接的另外的记录装置所提供的信号,其中,在所述检查(420)步骤中,检查在所述另外的会话激活信号(206)与另外的会话ID之间是否存在关联,其中,当在所述检查(420)步骤中得出在所述另外的会话激活信号(206)和所述另外的会话ID之间存在关联时,则在所述确定(430)步骤中确定另外的在先服务器(200)的可用性,所述另外的在先服务器在所述另外的会话激活信号(206)被读入之前已经处理与所述另外的会话ID相关联的另外的会话,其中,当在所述确定(430)步骤中得出所述另外的在先服务器(200)可用时,则在所述激活(440)步骤中在所述另外的在先服务器(200)上激活所述另外的会话,和/或当在所述确定(430)步骤中得出所述另外的在先服务器(200)不可用时,则通过从所述会话数据库(116)加载与所述另外的会话相关联的数据,在所述空闲服务器上和/或在另外的空闲服务器上激活所述另外的会话,其中,在所述接收(450)步骤中,在激活所述另外的会话期间和/或在激活所述另外的会话之后接收所述另外的语音指令(204)。
7.一种服务器系统(102),具有下述特征:
用于处理语音指令(111)的至少一个服务器(112),所述语音指令表示由经由接口(106)与所述服务器系统(102)连接的记录装置(104)所记录的语音指令,
用于读入会话激活信号(114)的读入单元(300),所述会话激活信号表示在由所述记录装置(104)记录到所述语音指令(111)时通过所述接口(106)提供的信号;
检查单元(302),用于检查在所述会话激活信号(114)与会话ID之间是否存在关联;
确定单元(304),用于当在所述会话激活信号(114)和所述会话ID之间存在关联时,确定在先服务器(112)的可用性,所述在先服务器在所述会话激活信号(114)被读入之前处理与所述会话ID相关联的会话;
会话数据库(116);
激活单元(310),用于当所述在先服务器(112)可用时,在所述在先服务器(112)上激活所述会话,和/或用于当所述在先服务器(112)不可用时,则通过从所述会话数据库(116)加载与所述会话相关联的数据,在空闲服务器(200)上激活所述会话;以及
接收单元(314),用于在激活所述会话期间和/或在激活所述会话之后接收所述语音指令(111)。
8.一种语音对话系统(100),具有下述特征:
根据权利要求7所述的服务器系统(102);和
用于记录语音指令(111)的记录装置(104),其中所述记录装置(104)具有:
接口(108),所述接口通往具有用于处理所述语音指令(111)的至少一个服务器(112)的服务器系统(102);以及
提供单元(105),所述提供单元被构造成:在记录到所述语音指令(111)时,把用于激活用于在所述服务器(112)上处理所述语音指令(111)的会话的会话激活信号(114)向所述接口(108)提供。
9.一种机器可读的存储介质,在所述存储介质上存储有计算机程序,所述计算机程序被构造成实施和/或操控根据权利要求1至6中任一项所述的方法(400)。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102015222956.4A DE102015222956A1 (de) | 2015-11-20 | 2015-11-20 | Verfahren zum Betreiben eines Serversystems und zum Betreiben eines Aufnahmegeräts zum Aufnehmen eines Sprachbefehls, Serversystem, Aufnahmegerät und Sprachdialogsystem |
DE102015222956.4 | 2015-11-20 | ||
PCT/EP2016/076012 WO2017084860A1 (de) | 2015-11-20 | 2016-10-28 | Verfahren zum betreiben eines serversystems und zum betreiben eines aufnahmegeräts zum aufnehmen eines sprachbefehls, serversystem, aufnahmegerät und sprachdialogsystem |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108352160A CN108352160A (zh) | 2018-07-31 |
CN108352160B true CN108352160B (zh) | 2022-07-01 |
Family
ID=57233413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680068038.XA Active CN108352160B (zh) | 2015-11-20 | 2016-10-28 | 用于运行服务器系统和记录语音指令的记录装置的方法、服务器系统、记录装置和语音对话系统 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10665233B2 (zh) |
EP (1) | EP3378062B1 (zh) |
CN (1) | CN108352160B (zh) |
DE (1) | DE102015222956A1 (zh) |
WO (1) | WO2017084860A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106898352B (zh) * | 2017-02-27 | 2020-09-25 | 联想(北京)有限公司 | 语音控制方法及电子设备 |
US10761423B2 (en) | 2017-08-30 | 2020-09-01 | Taiwan Semiconductor Manufacturing Company, Ltd. | Chemical composition for tri-layer removal |
KR102460491B1 (ko) * | 2017-12-06 | 2022-10-31 | 삼성전자주식회사 | 전자 장치 및 그의 제어 방법 |
WO2020162948A1 (en) * | 2019-02-08 | 2020-08-13 | Google Llc | Adapting to differences in device state reporting of third party servers |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1104155A2 (en) * | 1999-11-24 | 2001-05-30 | Phone.Com Inc. | Voice recognition based user interface for wireless devices |
CN102737630A (zh) * | 2011-04-06 | 2012-10-17 | 罗伯特·博世有限公司 | 一种用于处理关于待行驶的路段的语音信号的方法和装置 |
CN103404111A (zh) * | 2011-03-15 | 2013-11-20 | 阿玛得斯两合公司 | 用于在异构环境中提供会话的方法与系统 |
WO2014023308A1 (de) * | 2012-08-06 | 2014-02-13 | Axel Reddehase | Verfahren und system zum bereitstellen einer übersetzung eines sprachinhalts aus einem ersten audiosignal |
CN103886861A (zh) * | 2012-12-20 | 2014-06-25 | 联想(北京)有限公司 | 一种控制电子设备的方法及电子设备 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2002347129A1 (en) * | 2002-11-13 | 2004-06-03 | Intel China Ltd. | Multi-modal web interaction over wireless network |
US7441046B2 (en) | 2003-03-03 | 2008-10-21 | Siemens Medical Solutions Usa, Inc. | System enabling server progressive workload reduction to support server maintenance |
US7552055B2 (en) * | 2004-01-10 | 2009-06-23 | Microsoft Corporation | Dialog component re-use in recognition systems |
TWI298844B (en) | 2005-11-30 | 2008-07-11 | Delta Electronics Inc | User-defines speech-controlled shortcut module and method |
US20110054894A1 (en) | 2007-03-07 | 2011-03-03 | Phillips Michael S | Speech recognition through the collection of contact information in mobile dictation application |
US8996379B2 (en) * | 2007-03-07 | 2015-03-31 | Vlingo Corporation | Speech recognition text entry for software applications |
US8400162B1 (en) * | 2009-04-09 | 2013-03-19 | Physical Optics Corporation | Power management system and method |
US20150106089A1 (en) * | 2010-12-30 | 2015-04-16 | Evan H. Parker | Name Based Initiation of Speech Recognition |
EP2957125B1 (en) * | 2013-02-12 | 2019-12-04 | Telefonaktiebolaget LM Ericsson (publ) | Technique for transferring a session with changeable session state |
-
2015
- 2015-11-20 DE DE102015222956.4A patent/DE102015222956A1/de not_active Withdrawn
-
2016
- 2016-10-28 EP EP16790932.4A patent/EP3378062B1/de active Active
- 2016-10-28 US US15/772,853 patent/US10665233B2/en active Active
- 2016-10-28 WO PCT/EP2016/076012 patent/WO2017084860A1/de active Application Filing
- 2016-10-28 CN CN201680068038.XA patent/CN108352160B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1104155A2 (en) * | 1999-11-24 | 2001-05-30 | Phone.Com Inc. | Voice recognition based user interface for wireless devices |
CN103404111A (zh) * | 2011-03-15 | 2013-11-20 | 阿玛得斯两合公司 | 用于在异构环境中提供会话的方法与系统 |
CN102737630A (zh) * | 2011-04-06 | 2012-10-17 | 罗伯特·博世有限公司 | 一种用于处理关于待行驶的路段的语音信号的方法和装置 |
WO2014023308A1 (de) * | 2012-08-06 | 2014-02-13 | Axel Reddehase | Verfahren und system zum bereitstellen einer übersetzung eines sprachinhalts aus einem ersten audiosignal |
CN103886861A (zh) * | 2012-12-20 | 2014-06-25 | 联想(北京)有限公司 | 一种控制电子设备的方法及电子设备 |
Non-Patent Citations (2)
Title |
---|
Histogram-Based Quantization for Robust and/or Distributed Speech Recognition;Chia-Yu Wan;《IEEE Transactions on Audio, Speech, and Language Processing 》;20080430;859-873 * |
面向语音交互的云计算系统的研究;贾玉辉;《中国优秀硕士学位论文全文数据库信息科技辑》;20140331 * |
Also Published As
Publication number | Publication date |
---|---|
US10665233B2 (en) | 2020-05-26 |
WO2017084860A1 (de) | 2017-05-26 |
EP3378062B1 (de) | 2020-03-25 |
CN108352160A (zh) | 2018-07-31 |
US20180322868A1 (en) | 2018-11-08 |
DE102015222956A1 (de) | 2017-05-24 |
EP3378062A1 (de) | 2018-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108352160B (zh) | 用于运行服务器系统和记录语音指令的记录装置的方法、服务器系统、记录装置和语音对话系统 | |
US9666190B2 (en) | Speech recognition using loosely coupled components | |
CN108124003B (zh) | 网络管理设备连接处理方法、装置及系统 | |
US9443523B2 (en) | Multi-sample conversational voice verification | |
EP3084633B1 (en) | Attribute-based audio channel arbitration | |
US20150088514A1 (en) | In-Call Virtual Assistants | |
US9196250B2 (en) | Application services interface to ASR | |
US8494127B2 (en) | Systems and methods for processing audio using multiple speech technologies | |
KR102331793B1 (ko) | 구조화된 오디오 출력을 사용하여 재생 감지 및/또는 무선 스피커에서 비정렬된 재생에 적응 | |
CN111158915A (zh) | 一种主从关系切换方法、从服务器、主服务器及系统 | |
JP2022028879A (ja) | 音声データの処理方法、装置、機器及び記憶媒体 | |
CN109151564B (zh) | 基于麦克风的设备控制方法及装置 | |
US8019607B2 (en) | Establishing call-based audio sockets within a componentized voice server | |
CN111402906B (zh) | 语音解码方法、装置、引擎及存储介质 | |
EP2733697A9 (en) | Application services interface to ASR | |
CN117992174A (zh) | 一种资源调度方法及装置 | |
WO2014183368A1 (en) | Systems and methods for voice data processing | |
US20170147286A1 (en) | Methods and systems for interfacing a speech dialog with new applications | |
KR20190017595A (ko) | 음성 처리 장치의 구동 제어 시스템 및 구동 제어 서버 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |