CN110517691B - 用于语音对话平台的语音透传方法及系统 - Google Patents

用于语音对话平台的语音透传方法及系统 Download PDF

Info

Publication number
CN110517691B
CN110517691B CN201910814946.4A CN201910814946A CN110517691B CN 110517691 B CN110517691 B CN 110517691B CN 201910814946 A CN201910814946 A CN 201910814946A CN 110517691 B CN110517691 B CN 110517691B
Authority
CN
China
Prior art keywords
voice
service
dialogue
conversation
central control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910814946.4A
Other languages
English (en)
Other versions
CN110517691A (zh
Inventor
吴旺
张顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Sipic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sipic Technology Co Ltd filed Critical Sipic Technology Co Ltd
Priority to CN201910814946.4A priority Critical patent/CN110517691B/zh
Publication of CN110517691A publication Critical patent/CN110517691A/zh
Application granted granted Critical
Publication of CN110517691B publication Critical patent/CN110517691B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/53Network services using third party service providers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明实施例提供一种用于语音对话平台的语音透传方法。该方法包括:语音对话平台的中控服务收到设备端采集用户语音,存储语音并将语音发送至语音对话平台识别服务进行语音识别,在中控服务接收到识别服务返回的识别结果后,向语音对话平台的对话服务发出对话请求;语音对话平台的对话服务收到对话请求后,请求语音对话平台的语义分析服务,以决策是否命中第三方技能,若第三方技能要求透传音频,则对话服务返回重传状态码至中控服务,中控服务根据重传状态码将存储的语音通过对话服务发送至第三方技能。本发明实施例还提供一种用于语音对话平台的语音透传系统。本发明实施例确定各第三方技能透传的需求,避免了浪费网络带宽提高了透传的效率。

Description

用于语音对话平台的语音透传方法及系统
技术领域
本发明涉及智能语音领域,尤其涉及一种用于语音对话平台的语音透传方法及系统。
背景技术
在智能语音的交互中,有的第三方服务需要语音开发平台透传用户的音频,第三方服务会自行的把这些用户的音频内容做特定的分析决策处理,由自己确定对应的语义解析。而语音开发平台会在对用户的音频做语义解析后,命中第三方技能时,将音频内容和语音解析的内容一并发送给第三方服务,有的则是进行实时透传。
在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
第三方服务的技能也就是自定义技能有的是需要透传音频的,有的则是仅依赖平台的识别结果和语义结果的。语音对话平台在技能决策时命中了第三方服务的技能后,将音频内容随其他有效信息一并发送的方式是非常低效的,因为有可能第三方服务的技能本身是不需要的。而实时的透传更是低效,浪费网络带宽。这两种方式都没有按需透传,占用了过多的网络带宽,给服务器造成一定的压力,并且有的传输也是多余的,使得透传效率低下。
发明内容
为了至少解决现有技术中的透传技术效率低下的问题。
第一方面,本发明实施例提供一种用于语音对话平台的语音透传方法,包括:
语音对话平台的中控服务收到设备端采集用户的语音,存储所述语音并将所述语音发送至语音对话平台的识别服务进行语音识别,在所述中控服务接收到识别服务返回的识别结果后,向语音对话平台的对话服务发出对话请求;
所述语音对话平台的对话服务收到对话请求后,请求语音对话平台的语义分析服务,以决策是否命中第三方技能,若命中第三方技能,则判断所述第三方技能是否要求透传音频;
若所述第三方技能要求透传音频,则所述对话服务返回重传状态码至所述中控服务,所述中控服务根据所述重传状态码将存储的语音通过所述对话服务发送至第三方技能,所述第三方技能将语音确定的第三方对话结果通过所述对话服务发送至所述中控服务,所述中控服务将所述第三方对话结果反馈至设备端。
第二方面,本发明实施例提供一种用于语音对话平台的语音透传方法,包括:
语音对话平台的中控服务收到设备端采集用户的语音,将所述语音缓存至中控服务的内存中;
将所述语音发送至语音对话平台的识别服务进行语音识别,在所述中控服务接收到识别服务返回的识别结果后,向语音对话平台的对话服务发出对话请求;
所述语音对话平台的对话服务收到对话请求后,请求语音对话平台的语义分析服务,以决策是否命中第三方技能,若命中第三方技能,则判断所述第三方技能是否要求透传音频;
若所述第三方技能要求透传音频,则所述对话服务返回重传状态码至所述中控服务,所述中控服务从内存中提取语音进行编码,将编码后的二进制数据发送至所述对话服务,所述对话服务将所述二进制数据还原成语音发送至所述第三方技能,所述第三方技能将语音确定的第三方对话结果通过所述对话服务发送至所述中控服务,所述中控服务将所述第三方对话结果反馈至设备端。
第三方面,本发明实施例提供一种用于语音对话平台的语音透传系统,包括:
对话请求程序模块,用于语音对话平台的中控服务收到设备端采集用户的语音,存储所述语音并将所述语音发送至语音对话平台的识别服务进行语音识别,在所述中控服务接收到识别服务返回的识别结果后,向语音对话平台的对话服务发出对话请求;
透传判断程序模块,用于所述语音对话平台的对话服务收到对话请求后,请求语音对话平台的语义分析服务,以决策是否命中第三方技能,若命中第三方技能,则判断所述第三方技能是否要求透传音频;
传输程序模块,用于若所述第三方技能要求透传音频,则所述对话服务返回重传状态码至所述中控服务,所述中控服务根据所述重传状态码将存储的语音通过所述对话服务发送至第三方技能,所述第三方技能将语音确定的第三方对话结果通过所述对话服务发送至所述中控服务,所述中控服务将所述第三方对话结果反馈至设备端。
第四方面,本发明实施例提供一种用于语音对话平台的语音透传系统,包括:
语音缓存程序模块,用于语音对话平台的中控服务收到设备端采集用户的语音,将所述语音缓存至中控服务的内存中;
对话请求程序模块,用于将所述语音发送至语音对话平台的识别服务进行语音识别,在所述中控服务接收到识别服务返回的识别结果后,向语音对话平台的对话服务发出对话请求;
透传判断程序模块,用于所述语音对话平台的对话服务收到对话请求后,请求语音对话平台的语义分析服务,以决策是否命中第三方技能,若命中第三方技能,则判断所述第三方技能是否要求透传音频;
传输程序模块,用于若所述第三方技能要求透传音频,则所述对话服务返回重传状态码至所述中控服务,所述中控服务从内存中提取语音进行编码,将编码后的二进制数据发送至所述对话服务,所述对话服务将所述二进制数据还原成语音发送至所述第三方技能,所述第三方技能将语音确定的第三方对话结果通过所述对话服务发送至所述中控服务,所述中控服务将所述第三方对话结果反馈至设备端。
第五方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的用于语音对话平台的语音透传方法的步骤。
第六方面,本发明实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例的用于语音对话平台的语音透传方法的步骤。
本发明实施例的有益效果在于:将语音对话平台划分出不同的服务,使用对话服务判断出第三方技能明确的需求,确保中控服务能够按照各第三方技能的需求发送对应的数据,从而避免多余的传输,从而进一步避免了浪费网络带宽,减缓了对服务器的压力,从而提高了透传的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种用于语音对话平台的语音透传方法的流程图;
图2是本发明另一实施例提供的一种用于语音对话平台的语音透传方法的流程图;
图3是本发明一实施例提供的一种用于语音对话平台的语音透传系统的结构示意图;
图4是本发明另一实施例提供的一种用于语音对话平台的语音透传系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示为本发明一实施例提供的一种用于语音对话平台的语音透传方法的流程图,包括如下步骤:
S11:语音对话平台的中控服务收到设备端采集用户的语音,存储所述语音并将所述语音发送至语音对话平台的识别服务进行语音识别,在所述中控服务接收到识别服务返回的识别结果后,向语音对话平台的对话服务发出对话请求;
S12:所述语音对话平台的对话服务收到对话请求后,请求语音对话平台的语义分析服务,以决策是否命中第三方技能,若命中第三方技能,则判断所述第三方技能是否要求透传音频;
S13:若所述第三方技能要求透传音频,则所述对话服务返回重传状态码至所述中控服务,所述中控服务根据所述重传状态码将存储的语音通过所述对话服务发送至第三方技能,所述第三方技能将语音确定的第三方对话结果通过所述对话服务发送至所述中控服务,所述中控服务将所述第三方对话结果反馈至设备端。
在本实施方式中,开放式的语音对话平台需要考虑到第三方技能服务是多样性的,有的第三方技能需要语音对话平台确定的识别结果或语义结果,有的则只需要识别结果,而有第三方技能仅需要透传用户的音频,由第三方技能自己做对话回复。由于第三方技能的多样性,语音对话平台就需要包容适配这些多样性。
对于步骤S11,用户要使用智能设备时,需要对智能设备进行语音输入。智能设备实时将采集到的用户语音发送至语音对话平台中,例如,用户语音输入为“我要订麦当劳的外卖”。所述中控服务会将用户的语音储存起来,例如中控服务对应的硬盘当中,此时,中控服务只有“语音”,并不知道这句话的意思,进而需要将语音发送至语音对话平台的识别服务来进行语音识别。识别服务对语音识别后,将语音对应的识别结果“我要订麦当劳的外卖”反馈给中控服务。
所述中控服务接收到识别服务返回的“我要订麦当劳的外卖”的识别结果后,向语音对话平台的对话服务发出对话请求。在这次的请求中,并没有传输音频,而仅仅是将识别结果进行了传输。
对于步骤S12,语音对话平台的对话服务接收到对话请求后,由于仅仅知道识别结果,却不知道对应的语义,进而将收到的对话请求发送到其他的语义分析服务中进行语义分析。所述对话服务接收到语义分析服务的语义反馈,进行技能判断是否命中了第三方技能。例如,智能设备本地并没有配置订餐技能,为了使智能设备更加“智能、好用”附加了一些第三方的技能。如果确认命中了第三方技能时,需要查询这个第三方技能对于输入的参数有什么要求,例如,是否要求透传音频。(由于不同的第三方技能在设计上各有不同,有的第三方技能人力物力投入充足,有着自己独特的一套语音识别模型,而有的第三方技能仅仅能根据传入的语义参数做相应的动作),要求不同,传给第三方技能的数据也就不同。
对于步骤S13,如果第三方技能“订餐”要求透传音频,则所述对话服务向中控服务返回重传状态码(因为之前的步骤中,中控服务仅仅将识别结果传给了对话服务)。作为一种实施方式,所述重传状态码包括449状态码,其中,449状态码用于表示请求应该在执行适当的动作之后被重试,根据所述449状态码向所述对话控制服务重新发起Retry-With-Audio请求。
所述中控服务根据所述重传状态码取出原始音频数据,将在步骤S11中存储的“我要订麦当劳的外卖”的语音,通过所述对话服务发送到第三方技能中。由于第三方技能自身具备语义理解的能力,会确定用于反馈这句话的第三方对话结果,将所述第三方对话结果通过对话服务发送至中控服务。中控服务接到第三方对话结果后再次传输给用户的智能设备端。
通过该实施方式可以看出,将语音对话平台划分出不同的服务,使用对话服务判断出第三方技能明确的需求,确保中控服务能够按照各第三方技能的需求发送对应的数据,从而避免多余的传输,从而进一步避免了浪费网络带宽,减缓了对服务器的压力,从而提高了透传的效率。
作为一种实施方式,在本实施例中,所述请求语音对话平台的语义分析服务,以决策是否命中第三方技能还包括:
若命中本地技能,所述对话服务请求语音对话平台的语义分析服务,确定对应的本地对话结果;
所述中控服务将所述对话服务反馈的本地对话结果发送至设备端。
在本实施方式中,如果用户输入的对话“我要订麦当劳的外卖”命中了本地技能时,那么就不需要调用第三方技能来处理,对话服务直接请求语音对话平台的语义分析服务,确定对应的本地对话结果,中控服务将所述对话服务反馈的本地对话结果发送至设备端。
通过该实施方式可以看出,对于本地技能可以处理的语音对话,不必使用第三方技能,避免了网络带宽的占用,减缓了对服务器的压力。
作为一种实施方式,在本实施例中,若所述第三方技能不要求透传音频时,所述对话服务请求语音对话平台的语义分析服务,确定对应的本地对话结果;
所述中控服务将所述对话服务反馈的本地对话结果发送至设备端,以完成对用户输入语音的对话反馈,所述对话服务将所述本地对话结果发送至所述第三方技能,以完成用户对第三方技能的调用。
在本实施方式中,若所述第三方技能不要求透传音频时,也就无需向第三方技能传输音频。也就是说,例如,用户输入“我要订麦当劳的外卖”,虽然命中了第三方技能,但是第三方技能不具有对应的识别功能,只能按照语义结果进行操作,那么,语义识别阶段,交给语音对话平台本地来做,向用户反馈的回复语句也由语音对话平台本地反馈,例如,语音对话平台确定出“您想吃哪些食物”向用户反馈,语音对话平台只负责与用户“对话”。但是后台完成这些对应的操作是由第三方技能来完成的。
通过该实施方式可以看出,有效的确定出第三方技能透传的需求,不造成避免多余的传输,进而避免浪费网络带宽,进一步提高透传效率。
如图2所示为本发明一实施例提供的一种用于语音对话平台的语音透传方法的流程图,包括如下步骤:
S21:语音对话平台的中控服务收到设备端采集用户的语音,将所述语音缓存至中控服务的内存中;
S22:将所述语音发送至语音对话平台的识别服务进行语音识别,在所述中控服务接收到识别服务返回的识别结果后,向语音对话平台的对话服务发出对话请求;
S23:所述语音对话平台的对话服务收到对话请求后,请求语音对话平台的语义分析服务,以决策是否命中第三方技能,若命中第三方技能,则判断所述第三方技能是否要求透传音频;
S24:若所述第三方技能要求透传音频,则所述对话服务返回重传状态码至所述中控服务,所述中控服务从内存中提取语音进行编码,将编码后的二进制数据发送至所述对话服务,所述对话服务将所述二进制数据还原成语音发送至所述第三方技能,所述第三方技能将语音确定的第三方对话结果通过所述对话服务发送至所述中控服务,所述中控服务将所述第三方对话结果反馈至设备端。
对于步骤S21,语音对话平台的中控服务接收到设备采集用户的语音,例如“我要订麦当劳的外卖”,将这段音频缓存至中控服务的内存当中。
对于步骤S22、S23与上述步骤S11、S12相对应,在此不再赘述。
对于步骤S24,在确认第三方技能要求透传音频后,此时,中控服务不再将音频直接传输,做base64编码处理后发送至所述对话服务,对话服务将接收到的二进制数据做base64解码处理后,提取出用户原始语音数据发送至所述第三方技能中。
通过该实施方式可以看出,中控服务不再将音频直接传输,而是对音频数据进行base64编码后进行发送传输,这样可以兼顾音频数据传输的时效性和便利性,减少对其他中间件服务的依赖。
如图3所示为本发明一实施例提供的一种用于语音对话平台的语音透传系统的结构示意图,该系统可执行上述任意实施例所述的用于语音对话平台的语音透传方法,并配置在终端中。
本实施例提供的一种用于语音对话平台的语音透传系统包括:对话请求程序模块11,透传判断程序模块12和传输程序模块13。
其中,对话请求程序模块11用于语音对话平台的中控服务收到设备端采集用户的语音,存储所述语音并将所述语音发送至语音对话平台的识别服务进行语音识别,在所述中控服务接收到识别服务返回的识别结果后,向语音对话平台的对话服务发出对话请求;透传判断程序模块12用于所述语音对话平台的对话服务收到对话请求后,请求语音对话平台的语义分析服务,以决策是否命中第三方技能,若命中第三方技能,则判断所述第三方技能是否要求透传音频;传输程序模块13用于若所述第三方技能要求透传音频,则所述对话服务返回重传状态码至所述中控服务,所述中控服务根据所述重传状态码将存储的语音通过所述对话服务发送至第三方技能,所述第三方技能将语音确定的第三方对话结果通过所述对话服务发送至所述中控服务,所述中控服务将所述第三方对话结果反馈至设备端。
如图4所示为本发明一实施例提供的一种用于语音对话平台的语音透传系统的结构示意图,该系统可执行上述任意实施例所述的用于语音对话平台的语音透传方法,并配置在终端中。
本实施例提供的一种用于语音对话平台的语音透传系统包括:语音缓存程序模块21,对话请求程序模块22,透传判断程序模块23和传输程序模块24。
其中,语音缓存程序模块21用于语音对话平台的中控服务收到设备端采集用户的语音,将所述语音缓存至中控服务的内存中;对话请求程序模块22用于将所述语音发送至语音对话平台的识别服务进行语音识别,在所述中控服务接收到识别服务返回的识别结果后,向语音对话平台的对话服务发出对话请求;透传判断程序模块23用于所述语音对话平台的对话服务收到对话请求后,请求语音对话平台的语义分析服务,以决策是否命中第三方技能,若命中第三方技能,则判断所述第三方技能是否要求透传音频;传输程序模块24用于若所述第三方技能要求透传音频,则所述对话服务返回重传状态码至所述中控服务,所述中控服务从内存中提取语音进行编码,将编码后的二进制数据发送至所述对话服务,所述对话服务将所述二进制数据还原成语音发送至所述第三方技能,所述第三方技能将语音确定的第三方对话结果通过所述对话服务发送至所述中控服务,所述中控服务将所述第三方对话结果反馈至设备端。
进一步地,所述透传判断程序模块用于:
若命中本地技能,所述对话服务请求语音对话平台的语义分析服务,确定对应的本地对话结果;
所述中控服务将所述对话服务反馈的本地对话结果发送至设备端。
进一步地,所述传输模块还用于:
若所述第三方技能不要求透传音频时,所述对话服务请求语音对话平台的语义分析服务,确定对应的本地对话结果;
所述中控服务将所述对话服务反馈的本地对话结果发送至设备端,以完成对用户输入语音的对话反馈,所述对话服务将所述本地对话结果发送至所述第三方技能,以完成用户对第三方技能的调用。
进一步地,所述重传状态码包括449状态码,用于表示请求应该在执行适当的动作之后被重试;
所述中控服务端根据所述449状态码,向所述对话控制服务重新发起Retry-With-Audio请求。
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的用于语音对话平台的语音透传方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
语音对话平台的中控服务收到设备端采集用户的语音,存储所述语音并将所述语音发送至语音对话平台的识别服务进行语音识别,在所述中控服务接收到识别服务返回的识别结果后,向语音对话平台的对话服务发出对话请求;
所述语音对话平台的对话服务收到对话请求后,请求语音对话平台的语义分析服务,以决策是否命中第三方技能,若命中第三方技能,则判断所述第三方技能是否要求透传音频;
若所述第三方技能要求透传音频,则所述对话服务返回重传状态码至所述中控服务,所述中控服务根据所述重传状态码将存储的语音通过所述对话服务发送至第三方技能,所述第三方技能将语音确定的第三方对话结果通过所述对话服务发送至所述中控服务,所述中控服务将所述第三方对话结果反馈至设备端。
作为另一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
语音对话平台的中控服务收到设备端采集用户的语音,将所述语音缓存至中控服务的内存中;
将所述语音发送至语音对话平台的识别服务进行语音识别,在所述中控服务接收到识别服务返回的识别结果后,向语音对话平台的对话服务发出对话请求;
所述语音对话平台的对话服务收到对话请求后,请求语音对话平台的语义分析服务,以决策是否命中第三方技能,若命中第三方技能,则判断所述第三方技能是否要求透传音频;
若所述第三方技能要求透传音频,则所述对话服务返回重传状态码至所述中控服务,所述中控服务从内存中提取语音进行编码,将编码后的二进制数据发送至所述对话服务,所述对话服务将所述二进制数据还原成语音发送至所述第三方技能,所述第三方技能将语音确定的第三方对话结果通过所述对话服务发送至所述中控服务,所述中控服务将所述第三方对话结果反馈至设备端。
作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的用于语音对话平台的语音透传方法。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的用于语音对话平台的语音透传方法的步骤。
本申请实施例的客户端以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如平板电脑。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有数据处理功能的电子装置。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种用于语音对话平台的语音透传方法,包括:
语音对话平台的中控服务收到设备端采集用户的语音,存储所述语音并将所述语音发送至语音对话平台的识别服务进行语音识别,在所述中控服务接收到识别服务返回的识别结果后,向语音对话平台的对话服务发出对话请求;
所述语音对话平台的对话服务收到对话请求后,请求语音对话平台的语义分析服务,以决策是否命中第三方技能,若命中第三方技能,则判断所述第三方技能是否要求透传音频;
若所述第三方技能要求透传音频,则所述对话服务返回重传状态码至所述中控服务,所述中控服务根据所述重传状态码将存储的语音通过所述对话服务发送至第三方技能,所述第三方技能将语音确定的第三方对话结果通过所述对话服务发送至所述中控服务,所述中控服务将所述第三方对话结果反馈至设备端;
若所述第三方技能不要求透传音频时,所述对话服务请求语音对话平台的语义分析服务,确定对应的本地对话结果,所述中控服务将所述对话服务反馈的本地对话结果发送至所述设备端,以完成对用户输入语音的对话反馈,所述对话服务将所述本地对话结果发送至所述第三方技能,以完成用户对所述第三方技能的调用。
2.一种用于语音对话平台的语音透传方法,包括:
语音对话平台的中控服务收到设备端采集用户的语音,将所述语音缓存至中控服务的内存中;
将所述语音发送至语音对话平台的识别服务进行语音识别,在所述中控服务接收到识别服务返回的识别结果后,向语音对话平台的对话服务发出对话请求;
所述语音对话平台的对话服务收到对话请求后,请求语音对话平台的语义分析服务,以决策是否命中第三方技能,若命中第三方技能,则判断所述第三方技能是否要求透传音频;
若所述第三方技能要求透传音频,则所述对话服务返回重传状态码至所述中控服务,所述中控服务从内存中提取语音进行编码,将编码后的二进制数据发送至所述对话服务,所述对话服务将所述二进制数据还原成语音发送至所述第三方技能,所述第三方技能将语音确定的第三方对话结果通过所述对话服务发送至所述中控服务,所述中控服务将所述第三方对话结果反馈至设备端;
若所述第三方技能不要求透传音频时,所述对话服务请求语音对话平台的语义分析服务,确定对应的本地对话结果,所述中控服务将所述对话服务反馈的本地对话结果发送至所述设备端,以完成对用户输入语音的对话反馈,所述对话服务将所述本地对话结果发送至所述第三方技能,以完成用户对所述第三方技能的调用。
3.根据权利要求1或2所述的方法,其中,所述请求语音对话平台的语义分析服务,以决策是否命中第三方技能还包括:
若命中本地技能,所述对话服务请求语音对话平台的语义分析服务,确定对应的本地对话结果;
所述中控服务将所述对话服务反馈的本地对话结果发送至所述设备端。
4.根据权利要求1或2所述的方法,其中,所述重传状态码包括449状态码,用于表示请求应该在执行适当的动作之后被重试;
所述中控服务端根据所述449状态码,向所述对话控制服务重新发起Retry-With-Audio请求。
5.一种用于语音对话平台的语音透传系统,包括:
对话请求程序模块,用于语音对话平台的中控服务收到设备端采集用户的语音,存储所述语音并将所述语音发送至语音对话平台的识别服务进行语音识别,在所述中控服务接收到识别服务返回的识别结果后,向语音对话平台的对话服务发出对话请求;
透传判断程序模块,用于所述语音对话平台的对话服务收到对话请求后,请求语音对话平台的语义分析服务,以决策是否命中第三方技能,若命中第三方技能,则判断所述第三方技能是否要求透传音频;
传输程序模块,用于若所述第三方技能要求透传音频,则所述对话服务返回重传状态码至所述中控服务,所述中控服务根据所述重传状态码将存储的语音通过所述对话服务发送至第三方技能,所述第三方技能将语音确定的第三方对话结果通过所述对话服务发送至所述中控服务,所述中控服务将所述第三方对话结果反馈至设备端;
其中,所述传输程序模块,还用于若所述第三方技能不要求透传音频时,所述对话服务请求语音对话平台的语义分析服务,确定对应的本地对话结果,所述中控服务将所述对话服务反馈的本地对话结果发送至所述设备端,以完成对用户输入语音的对话反馈,所述对话服务将所述本地对话结果发送至所述第三方技能,以完成用户对所述第三方技能的调用。
6.一种用于语音对话平台的语音透传系统,包括:
语音缓存程序模块,用于语音对话平台的中控服务收到设备端采集用户的语音,将所述语音缓存至中控服务的内存中;
对话请求程序模块,用于将所述语音发送至语音对话平台的识别服务进行语音识别,在所述中控服务接收到识别服务返回的识别结果后,向语音对话平台的对话服务发出对话请求;
透传判断程序模块,用于所述语音对话平台的对话服务收到对话请求后,请求语音对话平台的语义分析服务,以决策是否命中第三方技能,若命中第三方技能,则判断所述第三方技能是否要求透传音频;
传输程序模块,用于若所述第三方技能要求透传音频,则所述对话服务返回重传状态码至所述中控服务,所述中控服务从内存中提取语音进行编码,将编码后的二进制数据发送至所述对话服务,所述对话服务将所述二进制数据还原成语音发送至所述第三方技能,所述第三方技能将语音确定的第三方对话结果通过所述对话服务发送至所述中控服务,所述中控服务将所述第三方对话结果反馈至设备端;
其中,所述传输程序模块,还用于若所述第三方技能不要求透传音频时,所述对话服务请求语音对话平台的语义分析服务,确定对应的本地对话结果,所述中控服务将所述对话服务反馈的本地对话结果发送至所述设备端,以完成对用户输入语音的对话反馈,所述对话服务将所述本地对话结果发送至所述第三方技能,以完成用户对所述第三方技能的调用。
7.根据权利要求5或6所述的系统,其中,所述透传判断程序模块用于:
若命中本地技能,所述对话服务请求语音对话平台的语义分析服务,确定对应的本地对话结果;
所述中控服务将所述对话服务反馈的本地对话结果发送至设备端。
8.根据权利要求5或6所述的系统,其中,所述重传状态码包括449状态码,用于表示请求应该在执行适当的动作之后被重试;
所述中控服务端根据所述449状态码,向所述对话控制服务重新发起Retry-With-Audio请求。
CN201910814946.4A 2019-08-30 2019-08-30 用于语音对话平台的语音透传方法及系统 Active CN110517691B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910814946.4A CN110517691B (zh) 2019-08-30 2019-08-30 用于语音对话平台的语音透传方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910814946.4A CN110517691B (zh) 2019-08-30 2019-08-30 用于语音对话平台的语音透传方法及系统

Publications (2)

Publication Number Publication Date
CN110517691A CN110517691A (zh) 2019-11-29
CN110517691B true CN110517691B (zh) 2021-11-12

Family

ID=68628476

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910814946.4A Active CN110517691B (zh) 2019-08-30 2019-08-30 用于语音对话平台的语音透传方法及系统

Country Status (1)

Country Link
CN (1) CN110517691B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113555015A (zh) * 2020-04-23 2021-10-26 百度在线网络技术(北京)有限公司 语音交互方法、语音交互设备、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002111714A (ja) * 2000-10-02 2002-04-12 Fujitsu Ltd 帯域制御サービス管理装置
US20020065657A1 (en) * 2000-11-30 2002-05-30 Telesector Resources Group, Inc. Methods and apparatus for performing speech recognition and using speech recognition results
CN107195301A (zh) * 2017-05-19 2017-09-22 深圳市优必选科技有限公司 智能机器人语义处理的方法及装置
CN108389098A (zh) * 2017-02-03 2018-08-10 北京京东尚科信息技术有限公司 语音购物方法以及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002111714A (ja) * 2000-10-02 2002-04-12 Fujitsu Ltd 帯域制御サービス管理装置
US20020065657A1 (en) * 2000-11-30 2002-05-30 Telesector Resources Group, Inc. Methods and apparatus for performing speech recognition and using speech recognition results
CN108389098A (zh) * 2017-02-03 2018-08-10 北京京东尚科信息技术有限公司 语音购物方法以及系统
CN107195301A (zh) * 2017-05-19 2017-09-22 深圳市优必选科技有限公司 智能机器人语义处理的方法及装置

Also Published As

Publication number Publication date
CN110517691A (zh) 2019-11-29

Similar Documents

Publication Publication Date Title
CN109981910B (zh) 业务推荐方法及设备
CN108540515B (zh) 一种数据处理方法及服务器
CN102148843A (zh) 异步下载系统及方法
JP2023509868A (ja) 能動的に対話の開始を提起するためのサーバ側処理方法及びサーバ、並びに能動的に対話の開始が提起できる音声インタラクションシステム
CN110246501B (zh) 用于会议记录的语音识别方法及系统
CN111161717B (zh) 用于语音对话平台的技能调度方法及系统
EP3602973A1 (en) Shared and per-user bot group messaging method
WO2020124453A1 (zh) 信息自动回复的方法及相关装置
CN106896933B (zh) 将语音输入转换成文本输入的方法、装置和语音输入设备
CN108271096A (zh) 一种任务执行方法、装置、智能音箱及存储介质
CN110517691B (zh) 用于语音对话平台的语音透传方法及系统
US20170134327A1 (en) Method and device for notifying mobile terminal of unread information
WO2011116558A1 (zh) 短消息处理方法及终端
CN113596959A (zh) 基于自然语言编码的通信方法及系统
US9544252B2 (en) Compressing and decompressing electronic messages in message threads
WO2018183290A1 (en) Bot group messaging using general voice libraries
CN110837573B (zh) 分布式音频文件存储与读取方法及系统
CN111726284A (zh) 用于车载智能音箱的微信发送方法和装置
CN112447179A (zh) 一种语音交互方法、装置、设备及计算机可读存储介质
CN112289317B (zh) 用于语音交互的回复方法及系统
CN108986792B (zh) 用于语音对话平台的语音识别模型的训练调度方法及系统
CN114710482A (zh) 文件检测方法、装置、电子设备及存储介质
CN103338315A (zh) 一种信息处理方法及装置
US8681949B1 (en) System, method, and computer program for automated non-sound operations by interactive voice response commands
CN106331389A (zh) 短信收信人的确定方法、装置和服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant before: AI SPEECH Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant