CN110971681A - 语音交互方法、智能音箱、后台服务器及系统 - Google Patents

语音交互方法、智能音箱、后台服务器及系统 Download PDF

Info

Publication number
CN110971681A
CN110971681A CN201911166464.9A CN201911166464A CN110971681A CN 110971681 A CN110971681 A CN 110971681A CN 201911166464 A CN201911166464 A CN 201911166464A CN 110971681 A CN110971681 A CN 110971681A
Authority
CN
China
Prior art keywords
user
sound box
intelligent sound
background server
semantic analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911166464.9A
Other languages
English (en)
Inventor
金�雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AI Speech Ltd
Original Assignee
AI Speech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AI Speech Ltd filed Critical AI Speech Ltd
Priority to CN201911166464.9A priority Critical patent/CN110971681A/zh
Publication of CN110971681A publication Critical patent/CN110971681A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/14Session management
    • H04L67/141Setup of application sessions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请公开了一种语音交互方法、智能音箱、后台服务器及系统,其中方法包括:第一智能音箱检测第一用户的音频信息;所述第一智能音箱将检测到的所述第一用户的音频信息发送至后台服务器,接收所述后台服务器反馈的语义解析结果;当所述语义解析结果表征第一用户请求通话时,所述第一智能音箱向所述后台服务器发送匹配请求,接收所述后台服务器反馈的第二用户的相关信息;所述第一智能音箱基于所述第二用户的相关信息,与所述第二用户的第二智能音箱建立通信连接,并基于与所述第二智能音箱之间的所述通信连接与所述第二用户进行语音交互。

Description

语音交互方法、智能音箱、后台服务器及系统
技术领域
本申请涉及通信领域,尤其涉及一种语音交互方法、智能音箱、后台服务器及系统。
背景技术
在相关技术中,一个用户通过智能手机上的应用,采用触摸控制的方式触发与另一个用户进行交互的通信处理。这其中,包括了一个用户可以通过智能手机的应用与附近的陌生人进行沟通交流。随着通信技术的发展,智能音箱引入用户的日常使用中,用户通过智能音箱与其他用户进行语音交互就成为其发展方向中的一个,但是,由于大部分智能音箱是无屏设备,用户不能通过触控的方式触发语音交互,那么如何通过智能音箱与其他用户进行语音交互,是其需要解决的一个问题。
发明内容
本申请提供一种语音交互方法、智能音箱、后台服务器及系统,以解决现有技术中存在的上述问题。
本申请提供一种语音交互方法,所述方法包括:
第一智能音箱检测第一用户的音频信息;
所述第一智能音箱将检测到的所述第一用户的音频信息发送至后台服务器,接收所述后台服务器反馈的语义解析结果;
当所述语义解析结果表征第一用户请求通话时,所述第一智能音箱向所述后台服务器发送匹配请求,接收所述后台服务器反馈的第二用户的相关信息;
所述第一智能音箱基于所述第二用户的相关信息,与所述第二用户的第二智能音箱建立通信连接,并基于与所述第二智能音箱之间的所述通信连接与所述第二用户进行语音交互
本申请提供一种语音交互方法,所述方法包括:
后台服务器接收到第一智能音箱发来的所述第一用户的音频信息,对所述第一用户的音频信息进行解析得到语义解析结果,将所述语义解析结果发送至所述第一智能音箱;
当所述后台服务器接收所述第一智能音箱发来的匹配请求时,向所述第一智能音箱反馈第二用户的相关信息。
本申请提供一种语音交互方法,所述方法包括:
第一智能音箱检测第一用户的音频信息;
所述第一智能音箱将检测到的所述第一用户的音频信息发送至后台服务器;
所述后台服务器接收到所述第一智能音箱发来的所述第一用户的音频信息,对所述第一用户的音频信息进行解析得到语义解析结果,将所述语义解析结果发送至所述第一智能音箱;
所第一智能音箱接收所述后台服务器反馈的语义解析结果;
当所述语义解析结果表征第一用户请求通话时,所述第一智能音箱向所述后台服务器发送匹配请求;
当所述后台服务器接收所述第一智能音箱发来的匹配请求时,向所述第一智能音箱反馈第二用户的相关信息;
所述第一智能音箱接收所述后台服务器反馈的第二用户的相关信息;
所述第一智能音箱基于所述第二用户的相关信息,与所述第二用户的第二智能音箱建立通信连接,并基于与所述第二智能音箱之间的所述通信连接与所述第二用户进行语音交互。
本申请提供一种智能音箱,所述智能音箱包括:
音频处理模块,用于检测第一用户的音频信息;
第一通信模块,用于将检测到的所述第一用户的音频信息发送至后台服务器,接收所述后台服务器反馈的语义解析结果;当所述语义解析结果表征第一用户请求通话时,向所述后台服务器发送匹配请求,接收所述后台服务器反馈的第二用户的相关信息;
第二通信模块,用于基于所述第二用户的相关信息,与所述第二用户的第二智能音箱建立通信连接,并基于与所述第二智能音箱之间的所述通信连接与所述第二用户进行语音交互。
本申请提供一种后台服务器,后台服务器包括:
语义解析模块,用于接收到第一智能音箱发来的所述第一用户的音频信息,对所述第一用户的音频信息进行解析得到语义解析结果,将所述语义解析结果发送至所述第一智能音箱;
匹配模块,用于当接收所述第一智能音箱发来的匹配请求时,向所述第一智能音箱反馈第二用户的相关信息。
本申请提供一种语音交互系统,所述系统包括:
第一智能音箱,用于检测第一用户的音频信息;将检测到的所述第一用户的音频信息发送至后台服务器;接收所述后台服务器反馈的语义解析结果;当所述语义解析结果表征第一用户请求通话时,所述第一智能音箱向所述后台服务器发送匹配请求;接收所述后台服务器反馈的第二用户的相关信息;基于所述第二用户的相关信息,与所述第二用户的第二智能音箱建立通信连接,并基于与所述第二智能音箱之间的所述通信连接与所述第二用户进行语音交互;
后台服务器,用于接收到所述第一智能音箱发来的所述第一用户的音频信息,对所述第一用户的音频信息进行解析得到语义解析结果,将所述语义解析结果发送至所述第一智能音箱;当接收所述第一智能音箱发来的匹配请求时,向所述第一智能音箱反馈第二用户的相关信息。
通过采用上述方案,使得用户通过向智能音箱发起请求通话的指令,由后台服务器查找到匹配的第二用户,进而智能音箱可以直接与第二用户使用的智能音箱建立通信连接,并进行语音交互。如此,在智能音箱这种无屏设备的使用中,增加了与其他用户进行交流沟通的一种使用场景,并且,处理过程中无需用户繁琐的多次操作,从而为用户提供了一种通过智能音箱就能实现的便捷并且又好的语音交互方式。。
附图说明
图1为本申请实施例提供的语音交互方法流程示意图一;
图2为本申请实施例提供的语音交互方法流程示意图二;
图3为本申请实施例提供的语音交互方法流程示意图三;
图4为本申请实施例提供的语音交互方法流程示意图四;
图5为本申请实施例提供的语音交互方法流程示意图五;
图6为本申请实施例提供的一种智能音箱组成结构示意图;
图7为本申请实施例提供的一种后台服务器组成结构示意图;
图8为本申请实施例提供的一种语音交互系统组成结构示意图。
具体实施方式
为使本申请的目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种语音交互方法,如图1所示,包括:
S11:第一智能音箱检测第一用户的音频信息;
S12:所述第一智能音箱将检测到的所述第一用户的音频信息发送至后台服务器,接收所述后台服务器反馈的语义解析结果;
S13:当所述语义解析结果表征第一用户请求通话时,所述第一智能音箱向所述后台服务器发送匹配请求,接收所述后台服务器反馈的第二用户的相关信息;
S14:所述第一智能音箱基于所述第二用户的相关信息,与所述第二用户的第二智能音箱建立通信连接,并基于与所述第二智能音箱之间的所述通信连接与所述第二用户进行语音交互。
在智能音箱的使用中,一般不会想到用智能音箱去做社交。在相关技术中,交互形式上主要还是以触摸交互为主,但是智能音箱大部分为无屏设备,无屏设备考虑到交互方式上主要是以语音交互为主。因此,本申请结合用户的使用习惯和体验,使得无屏的智能音箱通过语音交互触发该功能,结合云端算法匹配最优合适的人,自动建立语音通话,减少用户的操作次数,这样为用户提供一种便捷并且友好的语音交互方式。
需要指出的是,本实施例中,执行S11之前,所述第一智能音箱还需要根据所述第一用户的操作指令,来确定是否开启搜索通话对象的功能。
比如,可以为第一用户向第一智能音箱发起一条语音指令,控制第一智能音箱开启搜索通话对象的功能;又或者,第一用户可以通过手动控制,比如,按下某一个物理按钮,来控制第一智能音箱搜索通话对象的功能。
再进一步地,第一用户通过第一智能音箱开启搜索通话对象的功能的时候,第一智能音箱还可以将第一用户的ID上传至后台服务器(或者可理解为上传到云端服务器)。
第一用户的ID可以为第一用户的相关信息,比如,第一用户注册的ID,或者,还可以包括第一用户注册的ID加上第一用户使用的第一智能音箱的ID。所述第一智能音箱的ID可以为第一智能音箱的序列号、设备号等等。
前述S11第一智能音箱检测第一用户的音频信息之后,可以包括:所述第一智能音箱对检测到的所述第一用户的音频信息进行降噪处理;所述第一智能音箱将降噪处理后的第一用户的音频信息发送至所述后台服务器。
其中,所述降噪处理可以包括有:回音消除(AEC)方式、和/或beforming算法。当然,还可以采用其他的降噪处理方式进行处理,本示例中不做穷举。
进而执行S12,所述第一智能音箱将检测到的所述第一用户的音频信息发送至后台服务器,接收所述后台服务器反馈的语义解析结果。
在S12的处理中,需要与后台服务器进行交互,其中,后台服务器可以为云端服务器。再具体的,云端服务器可以为一个或多个,如果为多个服务器的情况下,所述第一智能音箱将检测到的所述第一用户的音频信息发送至第一服务器,接收所述第一服务器反馈的语义解析结果。其中,第一服务器就可以为后台服务器中的一个,或者可以为云端服务器中的一个。该第一服务器至少应该具备的功能为进行语音的语义解析功能。
相应的,所述后台服务器需要对接收到的音频信息进行语义解析,然后得到语义解析结果,将所述语义解析结果反馈给所述第一智能音箱。
S13中,当所述语义解析结果表征第一用户请求通话时,所述第一智能音箱向所述后台服务器发送匹配请求,接收所述后台服务器反馈的第二用户的相关信息。
其中,还可以包括:当所述语义解析结果表征所述第一用户请求通话之外的其他处理时,那么第一智能音箱可以根据语义解析结果进行相应的处理,本实施例中不做进行赘述。
只有当语义解析结果表明第一用户请求通话的时候,第一智能音箱才会再次向后台服务器发送匹配请求。
相应的,所述后台服务器还会在接收到第一智能音箱发来的匹配请求之后,查找匹配的第二用户,得到所述第二用户的相关信息。
具体的,所述匹配的第二用户可以为开启搜索通话对象的功能的用户。
如果查找到多个匹配的用户,那么可以随机选择其中一个作为匹配的第二用户。
在进一步地,可以增加匹配的第二用户的筛选条件,比如,可以基于第一用户的相关信息来筛选第二用户。这其中可以包括有:第一用户所处的地理位置、第一用户的性别、第一用户的年龄、第一用户的喜好中至少之一。
举例来说,第一用户的注册的相关信息为A市中的B区域,那么可以为从多个匹配的用户中筛选处于A市中B区域的用户作为匹配的第二用户。如果仍然存在多个匹配的用户,那么可以进一步结合第一用户的性别进行筛选,比如,筛选同性别的、或者筛选异性等等。还需要指出的是,如果经过筛选仍然存在多个匹配的用户,那么可以进行随机选择,这里不再进行赘述。
本步骤中后台服务器与S12中的后台服务器,可以为相同的服务器也可以为不同的服务器。在为不同的服务器的情况下,S12的后台服务器可以为第一服务器,S13中的后台服务器可以为第二服务器。其中,第二服务器至少需要具备数据分析以及处理功能。
所述第一智能音箱向所述后台服务器发送匹配请求之后,所述方法还包括:当所述后台服务器反馈无匹配的用户时,所述第一智能音箱生成并输出第一提示信息;其中,所述第一提示信息用于通知所述第一用户通话请求无匹配的用户。
该第一提示信息可以为语音提示信息,比如,第一智能音箱可以播放:“无法找到匹配的通话对象”的语术,或者“未找到合适的人”的语术等等。
当接收到第一提示信息的时候,本次处理结束。
前述S14中,所述与所述第二用户的第二智能音箱建立通信连接,包括:
所述第一智能音箱向第三方通话服务器发送与所述第二用户的通话请求;所述第三方通话服务器用于通过第二用户的第二智能音箱向所述第二用户输出所述通话请求;当所述第二用户接收所述第一用户发起的通话请求时,所述第一智能音箱通过第三方通话服务器与所述第二用户的第二智能音箱建立通信连接。
其中,所述第三方通话服务器可以为网络中的能支持网络通话的服务器。关于第三方通话服务器与第一用户的第一智能音箱以及第二用户的第二智能音箱之间的交互协议以及交互流程,本实施例中不做赘述。
另外,当所述第二用户拒绝所述第一用户发起的通话请求时,所述第一智能音箱输出第二提示信息,结束处理;所述第二提示信息用于提示所述第一用户通话请求被拒绝。
所述第二提示信息也可以为第一智能音箱进行音频播放来输出。比如,第一智能音箱可以播放“语音建立失败”的语术;或者,可以播放“通话请求被拒绝”的语术等等。
下面结合图2对本实施例的一种具体示例进行说明:
步骤1:第一用户对第一智能音箱说出语音指令。如果第一用户需要出发与其他人通话,那么可以发出语音指令:我想找人聊天。
步骤2:第一智能音箱等待语义返回结果。
具体的,所述第一智能音箱对检测到的所述第一用户的音频信息进行降噪处理;所述第一智能音箱将降噪处理后的第一用户的音频信息发送至所述后台服务器。然后,等待所述第一智能音箱的语义返回结果。
举例来说,第一智能音箱可以经过前端信号处理(aec、beforming)进行降噪后,将降噪后的第一用户的音频信息发送至云端(也就是后台服务器)进行识别及语义处理;
后台服务器语义处理完之后,将处理结果也就是语义解析结果返回至第一用户的第一智能音箱。
步骤3:第一智能音箱端执行语义指令,请求服务器返回匹配的用户ID(也就是当前符合要求的userid)。
本步骤中,匹配的用户ID,可以理解为前述第二用户的相关信息。
再进一步地,所述用户ID可以为第二用户所使用的智能音箱的ID信息,又或者,可以为第二用户注册的ID号。
相应的,服务器根据接收到的请求进行条件匹配,将匹配到的用户ID(userid)返回至音箱端。又或者,如果没有匹配到合适的用户,则可以反馈给第一智能音箱匹配失败的结果。
步骤4:第一智能音箱判断是否接收到匹配的用户ID(也就是第二用户的相关信息),如果没有接收到,可以播放“未找到合适的人”,然后结束处理;如果接收到,执行步骤5。
步骤5:第一智能音箱基于所述用户ID请求语音服务。
具体可以为音箱请求第三方通话服务器与刚刚得到的userid建立网络通话。其中,需要指出的是,第一智能音箱向第三方通话服务器发起通话请求的时候,需要携带所述匹配的用户ID,以使得第三方通话服务器能够查找到该用户对应的智能音箱,进而建立通话。
步骤6:第一智能音箱判断语音服务是否连接成功,如果没有成功,则可以播放“语音连接失败”,如果成功,执行步骤7。
步骤7:第一智能音箱与匹配的用户建立通话。
前述方案中,详细描述了第一用户通过第一智能音箱向其他用户发起语音通信请求的处理过程。还有一种情况下,如果第一用户通过第一智能音箱开启了搜索通话对象的功能,那么第一用户还可以作为被叫用户存在。这种情况中,如果第一用户的第一智能音箱播放了来自其他用户(比如第三用户,并且第三用户与前述第二用户可能相同也可能不同)发来的通话请求时,第一用户可以接收或拒绝,如果接收可以向第一智能音箱发出“可以进行通话”这类语音,然后,第一用户可以通过第一智能音箱与其他用户进行语音交互;如果拒绝通话请求,那么第一用户可以向第一智能音箱发出“不进行通话”这类语音,然后第一用户的第一智能音箱通过第三方通话服务器向其他用户的第一智能音箱反馈“拒绝通话请求”的反馈,结束处理。
可见,通过采用上述方案,就能够使得用户通过向智能音箱发起请求通话的指令,由后台服务器查找到匹配的第二用户,进而智能音箱可以直接与第二用户使用的智能音箱建立通信连接,并进行语音交互。如此,在智能音箱这种无屏设备的使用中,增加了与其他用户进行交流沟通的一种使用场景,并且,处理过程中无需用户繁琐的多次操作,从而为用户提供了一种通过智能音箱就能实现的便捷并且又好的语音交互方式。
本申请实施例提供了一种语音交互方法,如图3所示,包括:
S21:后台服务器接收到第一智能音箱发来的所述第一用户的音频信息,对所述第一用户的音频信息进行解析得到语义解析结果,将所述语义解析结果发送至所述第一智能音箱;
S22:当所述后台服务器接收所述第一智能音箱发来的匹配请求时,向所述第一智能音箱反馈第二用户的相关信息。
后台服务器可以为云端服务器。再具体的,云端服务器可以为一个或多个,如果为多个服务器的情况下,所述第一智能音箱将检测到的所述第一用户的音频信息发送至第一服务器,接收所述第一服务器反馈的语义解析结果。其中,第一服务器就可以为后台服务器中的一个,或者可以为云端服务器中的一个。该第一服务器至少应该具备的功能为进行语音的语义解析功能。
所述后台服务器还会在接收到第一智能音箱发来的匹配请求之后,查找匹配的第二用户,得到所述第二用户的相关信息。
具体的,该匹配请求中,可以包括有:第一用户的相关信息,第一用户的第一智能音箱的相关信息,第一用户请求查找匹配的用户的信息内容。其中,第一用户的相关信息可以为第一用户的USER ID。第一智能音箱的相关信息可以智能音箱的序列号、产品号、设备标识等等,这里不做穷举。
所述匹配的第二用户可以为开启搜索通话对象的功能的用户。
如果查找到多个匹配的用户,那么可以随机选择其中一个作为匹配的第二用户。
在进一步地,可以增加匹配的第二用户的筛选条件,比如,可以基于第一用户的相关信息来筛选第二用户。这其中可以包括有:第一用户所处的地理位置、第一用户的性别、第一用户的年龄、第一用户的喜好中至少之一。
举例来说,第一用户的注册的相关信息为A市中的B区域,那么可以为从多个匹配的用户中筛选处于A市中B区域的用户作为匹配的第二用户。如果仍然存在多个匹配的用户,那么可以进一步结合第一用户的性别进行筛选,比如,筛选同性别的、或者筛选异性等等。还需要指出的是,如果经过筛选仍然存在多个匹配的用户,那么可以进行随机选择,这里不再进行赘述。
步骤S22中后台服务器与S21中的后台服务器,可以为相同的服务器也可以为不同的服务器。在为不同的服务器的情况下,S21的后台服务器可以为第一服务器,S22中的后台服务器可以为第二服务器。
所述第一智能音箱向所述后台服务器发送匹配请求之后,所述方法还包括:当所述后台服务器无法查到匹配的用户时,可以向第一智能音箱反馈无匹配用户的信息;然后可以结束本次处理。
可见,通过采用上述方案,就能够使得用户通过向智能音箱发起请求通话的指令,由后台服务器查找到匹配的第二用户,进而智能音箱可以直接与第二用户使用的智能音箱建立通信连接,并进行语音交互。如此,在智能音箱这种无屏设备的使用中,增加了与其他用户进行交流沟通的一种使用场景,并且,处理过程中无需用户繁琐的多次操作,从而为用户提供了一种通过智能音箱就能实现的便捷并且又好的语音交互方式。
结合前述实施例,本发明还提供另外一种实施例,一种语音交互方法,如图4所示,所述方法包括:
S31:第一智能音箱检测第一用户的音频信息;
S32:所述第一智能音箱将检测到的所述第一用户的音频信息发送至后台服务器;
S33:所述后台服务器接收到所述第一智能音箱发来的所述第一用户的音频信息,对所述第一用户的音频信息进行解析得到语义解析结果,将所述语义解析结果发送至所述第一智能音箱;
S34:所第一智能音箱接收所述后台服务器反馈的语义解析结果;
S35:当所述语义解析结果表征第一用户请求通话时,所述第一智能音箱向所述后台服务器发送匹配请求;
S36:当所述后台服务器接收所述第一智能音箱发来的匹配请求时,向所述第一智能音箱反馈第二用户的相关信息;
S37:所述第一智能音箱接收所述后台服务器反馈的第二用户的相关信息;
S38:所述第一智能音箱基于所述第二用户的相关信息,与所述第二用户的第二智能音箱建立通信连接,并基于与所述第二智能音箱之间的所述通信连接与所述第二用户进行语音交互。
本实施例中第一智能音箱以及后台服务器的相关具体处理流程与前述实施例相同,因此不再进行赘述。
结合图5,对本实施例进行示例性描述,需要说明的是,图中“智能音箱”为前述实施例中的“第一智能音箱”,用于为前述实施例中的“第一用户”,后台为前述实施例中的“后台服务器”,具体包括:
步骤1:用户发出语音指令,可以为:我想找人聊天;
步骤2:智能音箱对接收到的语音指令进行信号处理,然后将处理后的音频发送给后台;其中,信号处理可以包括有前述降噪处理,不再赘述;
步骤3:后台识别智能音箱发来的音频,对音频进行语义解析,得到语义解析结果;然后,后台将语义解析结果作为技能指令发送给智能音箱;
步骤4:当智能音箱收到技能指令时,向后台请求匹配的USER ID;其中,智能音箱可以判断接收到的语义解析结果是否为进行语音通话请求的技能指令,如果不是则结束处理,如果是,则向后台请求匹配的USER ID;
步骤5:后台接收到智能音箱发来的指令后,选择相应的USER ID,也就是后台查找匹配的第二用户,并得到第二用户的相关信息;
步骤6:智能音箱接收到后台反馈的USER ID后,通过第三方通话服务器与对应的用户建立通话连接。
可见,通过采用上述方案,就能够使得用户通过向智能音箱发起请求通话的指令,由后台服务器查找到匹配的第二用户,进而智能音箱可以直接与第二用户使用的智能音箱建立通信连接,并进行语音交互。如此,在智能音箱这种无屏设备的使用中,增加了与其他用户进行交流沟通的一种使用场景,并且,处理过程中无需用户繁琐的多次操作,从而为用户提供了一种通过智能音箱就能实现的便捷并且又好的语音交互方式。
本申请实施例提供了一种智能音箱,如图6所示,包括:
音频处理模块61,用于检测第一用户的音频信息;
第一通信模块62,用于将检测到的所述第一用户的音频信息发送至后台服务器,接收所述后台服务器反馈的语义解析结果;当所述语义解析结果表征第一用户请求通话时,向所述后台服务器发送匹配请求,接收所述后台服务器反馈的第二用户的相关信息;
第二通信模块63,用于基于所述第二用户的相关信息,与所述第二用户的第二智能音箱建立通信连接,并基于与所述第二智能音箱之间的所述通信连接与所述第二用户进行语音交互。
需要指出的是,本实施例中,智能音箱还可以包括:控制模块,用于根据所述第一用户的操作指令,来确定是否开启搜索通话对象的功能。
前述音频处理模块,用于对检测到的所述第一用户的音频信息进行降噪处理;所述第一通信模块,用于将降噪处理后的第一用户的音频信息发送至所述后台服务器。
所述智能音箱,还包括:
音频输出模块64,用于当所述后台服务器反馈无匹配的用户时,生成并输出第一提示信息;其中,所述第一提示信息用于通知所述第一用户通话请求无匹配的用户。
另外,当所述第二用户拒绝所述第一用户发起的通话请求时,音频输出模块64,用于输出第二提示信息,结束处理;所述第二提示信息用于提示所述第一用户通话请求被拒绝。
本实施例中智能音箱的其他功能与前述方法实施例中描述的内容相同,因此不再进行赘述。
可见,通过采用上述方案,就能够使得用户通过向智能音箱发起请求通话的指令,由后台服务器查找到匹配的第二用户,进而智能音箱可以直接与第二用户使用的智能音箱建立通信连接,并进行语音交互。如此,在智能音箱这种无屏设备的使用中,增加了与其他用户进行交流沟通的一种使用场景,并且,处理过程中无需用户繁琐的多次操作,从而为用户提供了一种通过智能音箱就能实现的便捷并且又好的语音交互方式。
本申请实施例提供了一种后台服务器,如图7所示,包括:
语义解析模块71,用于接收到第一智能音箱发来的所述第一用户的音频信息,对所述第一用户的音频信息进行解析得到语义解析结果,将所述语义解析结果发送至所述第一智能音箱;
匹配模块72,用于当接收所述第一智能音箱发来的匹配请求时,向所述第一智能音箱反馈第二用户的相关信息。
后台服务器可以为云端服务器。再具体的,云端服务器可以为一个或多个,如果为多个服务器的情况下,语义解析模块71,匹配模块72可以分别设置于两个服务器中,比如,语义解析模块71设置于第一后台服务器,匹配模块72设置于第二后台服务器。
所述匹配的第二用户可以为开启搜索通话对象的功能的用户。
如果查找到多个匹配的用户,那么可以随机选择其中一个作为匹配的第二用户。
在进一步地,可以增加匹配的第二用户的筛选条件,比如,可以基于第一用户的相关信息来筛选第二用户。这其中可以包括有:第一用户所处的地理位置、第一用户的性别、第一用户的年龄、第一用户的喜好中至少之一。
可见,通过采用上述方案,就能够使得用户通过向智能音箱发起请求通话的指令,由后台服务器查找到匹配的第二用户,进而智能音箱可以直接与第二用户使用的智能音箱建立通信连接,并进行语音交互。如此,在智能音箱这种无屏设备的使用中,增加了与其他用户进行交流沟通的一种使用场景,并且,处理过程中无需用户繁琐的多次操作,从而为用户提供了一种通过智能音箱就能实现的便捷并且又好的语音交互方式。
结合前述实施例,本发明还提供另外一种实施例,一种语音交互系统,如图8所示,所述方法包括:
第一智能音箱81,用于检测第一用户的音频信息;将检测到的所述第一用户的音频信息发送至后台服务器;接收所述后台服务器反馈的语义解析结果;当所述语义解析结果表征第一用户请求通话时,所述第一智能音箱向所述后台服务器发送匹配请求;接收所述后台服务器反馈的第二用户的相关信息;基于所述第二用户的相关信息,与所述第二用户的第二智能音箱建立通信连接,并基于与所述第二智能音箱之间的所述通信连接与所述第二用户进行语音交互;
后台服务器82,用于接收到所述第一智能音箱发来的所述第一用户的音频信息,对所述第一用户的音频信息进行解析得到语义解析结果,将所述语义解析结果发送至所述第一智能音箱;当接收所述第一智能音箱发来的匹配请求时,向所述第一智能音箱反馈第二用户的相关信息。
本实施例中智能音箱以及后台服务器的功能与前述实施例均相同,这里不再进行赘述。
可见,通过采用上述方案,就能够使得用户通过向智能音箱发起请求通话的指令,由后台服务器查找到匹配的第二用户,进而智能音箱可以直接与第二用户使用的智能音箱建立通信连接,并进行语音交互。如此,在智能音箱这种无屏设备的使用中,增加了与其他用户进行交流沟通的一种使用场景,并且,处理过程中无需用户繁琐的多次操作,从而为用户提供了一种通过智能音箱就能实现的便捷并且又好的语音交互方式。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (14)

1.一种语音交互方法,其特征在于,所述方法包括:
第一智能音箱检测第一用户的音频信息;
所述第一智能音箱将检测到的所述第一用户的音频信息发送至后台服务器,接收所述后台服务器反馈的语义解析结果;
当所述语义解析结果表征第一用户请求通话时,所述第一智能音箱向所述后台服务器发送匹配请求,接收所述后台服务器反馈的第二用户的相关信息;
所述第一智能音箱基于所述第二用户的相关信息,与所述第二用户的第二智能音箱建立通信连接,并基于与所述第二智能音箱之间的所述通信连接与所述第二用户进行语音交互。
2.根据权利要求1所述的方法,其特征在于,所述第一智能音箱将检测到的所述第一用户的音频信息发送至后台服务器,包括:
所述第一智能音箱对检测到的所述第一用户的音频信息进行降噪处理;
所述第一智能音箱将降噪处理后的第一用户的音频信息发送至所述后台服务器。
3.根据权利要求1所述的方法,其特征在于,所述第一智能音箱向所述后台服务器发送匹配请求之后,所述方法还包括:
当所述后台服务器反馈无匹配的用户时,所述第一智能音箱生成并输出第一提示信息;其中,所述第一提示信息用于通知所述第一用户通话请求无匹配的用户。
4.根据权利要求1所述的方法,其特征在于,所述与所述第二用户的智能音箱建立通信连接,包括:
所述第一智能音箱向第三方通话服务器发送与所述第二用户的通话请求;所述第三方通话服务器用于通过第二用户的第二智能音箱向所述第二用户输出所述通话请求;
当所述第二用户接收所述第一用户发起的通话请求时,所述第一智能音箱通过第三方通话服务器与所述第二用户的第二智能音箱建立通信连接。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
当所述第二用户拒绝所述第一用户发起的通话请求时,所述第一智能音箱输出第二提示信息;所述第二提示信息用于提示所述第一用户通话请求被拒绝。
6.一种语音交互方法,其特征在于,所述方法包括:
后台服务器接收到第一智能音箱发来的所述第一用户的音频信息,对所述第一用户的音频信息进行解析得到语义解析结果,将所述语义解析结果发送至所述第一智能音箱;
当所述后台服务器接收所述第一智能音箱发来的匹配请求时,向所述第一智能音箱反馈第二用户的相关信息。
7.根据权利要求6所述的方法,其特征在于,所述向所述第一智能音箱反馈第二用户的相关信息之前,所述方法还包括:
所述后台服务器查找匹配的第二用户,得到所述第二用户的相关信息。
8.根据权利要求7所述的方法,其特征在于,所述匹配的第二用户包括:开启搜索通话对象的功能的用户。
9.一种语音交互方法,其特征在于,所述方法包括:
第一智能音箱检测第一用户的音频信息;
所述第一智能音箱将检测到的所述第一用户的音频信息发送至后台服务器;
所述后台服务器接收到所述第一智能音箱发来的所述第一用户的音频信息,对所述第一用户的音频信息进行解析得到语义解析结果,将所述语义解析结果发送至所述第一智能音箱;
所第一智能音箱接收所述后台服务器反馈的语义解析结果;
当所述语义解析结果表征第一用户请求通话时,所述第一智能音箱向所述后台服务器发送匹配请求;
当所述后台服务器接收所述第一智能音箱发来的匹配请求时,向所述第一智能音箱反馈第二用户的相关信息;
所述第一智能音箱接收所述后台服务器反馈的第二用户的相关信息;
所述第一智能音箱基于所述第二用户的相关信息,与所述第二用户的第二智能音箱建立通信连接,并基于与所述第二智能音箱之间的所述通信连接与所述第二用户进行语音交互。
10.一种智能音箱,其特征在于,所述智能音箱包括:
音频处理模块,用于检测第一用户的音频信息;
第一通信模块,用于将检测到的所述第一用户的音频信息发送至后台服务器,接收所述后台服务器反馈的语义解析结果;当所述语义解析结果表征第一用户请求通话时,向所述后台服务器发送匹配请求,接收所述后台服务器反馈的第二用户的相关信息;
第二通信模块,用于基于所述第二用户的相关信息,与所述第二用户的第二智能音箱建立通信连接,并基于与所述第二智能音箱之间的所述通信连接与所述第二用户进行语音交互。
11.根据权利要求10所述的智能音箱,其特征在于,所述智能音箱,还包括:
音频输出模块,用于当所述后台服务器反馈无匹配的用户时,生成并输出第一提示信息;其中,所述第一提示信息用于通知所述第一用户通话请求无匹配的用户。
12.根据权利要求10所述的智能音箱,其特征在于,所述第二通信模块,用于向第三方通话服务器发送与所述第二用户的通话请求;所述第三方通话服务器用于通过第二用户的第二智能音箱向所述第二用户输出所述通话请求;当所述第二用户接收所述第一用户发起的通话请求时,通过第三方通话服务器与所述第二用户的第二智能音箱建立通信连接。
13.一种后台服务器,其特征在于,后台服务器包括:
语义解析模块,用于接收到第一智能音箱发来的所述第一用户的音频信息,对所述第一用户的音频信息进行解析得到语义解析结果,将所述语义解析结果发送至所述第一智能音箱;
匹配模块,用于当接收所述第一智能音箱发来的匹配请求时,向所述第一智能音箱反馈第二用户的相关信息。
14.一种语音交互系统,其特征在于,所述系统包括:
第一智能音箱,用于检测第一用户的音频信息;将检测到的所述第一用户的音频信息发送至后台服务器;接收所述后台服务器反馈的语义解析结果;当所述语义解析结果表征第一用户请求通话时,所述第一智能音箱向所述后台服务器发送匹配请求;接收所述后台服务器反馈的第二用户的相关信息;基于所述第二用户的相关信息,与所述第二用户的第二智能音箱建立通信连接,并基于与所述第二智能音箱之间的所述通信连接与所述第二用户进行语音交互;
后台服务器,用于接收到所述第一智能音箱发来的所述第一用户的音频信息,对所述第一用户的音频信息进行解析得到语义解析结果,将所述语义解析结果发送至所述第一智能音箱;当接收所述第一智能音箱发来的匹配请求时,向所述第一智能音箱反馈第二用户的相关信息。
CN201911166464.9A 2019-11-25 2019-11-25 语音交互方法、智能音箱、后台服务器及系统 Pending CN110971681A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911166464.9A CN110971681A (zh) 2019-11-25 2019-11-25 语音交互方法、智能音箱、后台服务器及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911166464.9A CN110971681A (zh) 2019-11-25 2019-11-25 语音交互方法、智能音箱、后台服务器及系统

Publications (1)

Publication Number Publication Date
CN110971681A true CN110971681A (zh) 2020-04-07

Family

ID=70031458

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911166464.9A Pending CN110971681A (zh) 2019-11-25 2019-11-25 语音交互方法、智能音箱、后台服务器及系统

Country Status (1)

Country Link
CN (1) CN110971681A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111818170A (zh) * 2020-07-20 2020-10-23 百度在线网络技术(北京)有限公司 网络通信方法和系统、及智能音箱
CN112039756A (zh) * 2020-09-10 2020-12-04 北京小米移动软件有限公司 一种建立实时通信的方法、装置、电子设备及介质
CN113488055A (zh) * 2020-04-28 2021-10-08 海信集团有限公司 一种智能交互方法、服务器及智能交互设备
CN113724702A (zh) * 2020-05-25 2021-11-30 阿里巴巴集团控股有限公司 一种实现信息处理的架构、方法及装置和智能音箱及服务端

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030125958A1 (en) * 2001-06-19 2003-07-03 Ahmet Alpdemir Voice-interactive marketplace providing time and money saving benefits and real-time promotion publishing and feedback
US20170345425A1 (en) * 2016-05-27 2017-11-30 Toyota Jidosha Kabushiki Kaisha Voice dialog device and voice dialog method
CN107770047A (zh) * 2017-10-12 2018-03-06 上海斐讯数据通信技术有限公司 智能音箱、基于智能音箱实现社交功能的系统和方法
CN109040188A (zh) * 2018-07-03 2018-12-18 四川斐讯信息技术有限公司 一种智能音箱的音频处理方法及系统
CN109462794A (zh) * 2018-12-11 2019-03-12 Oppo广东移动通信有限公司 智能音箱及用于智能音箱的语音交互方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030125958A1 (en) * 2001-06-19 2003-07-03 Ahmet Alpdemir Voice-interactive marketplace providing time and money saving benefits and real-time promotion publishing and feedback
US20170345425A1 (en) * 2016-05-27 2017-11-30 Toyota Jidosha Kabushiki Kaisha Voice dialog device and voice dialog method
CN107770047A (zh) * 2017-10-12 2018-03-06 上海斐讯数据通信技术有限公司 智能音箱、基于智能音箱实现社交功能的系统和方法
CN109040188A (zh) * 2018-07-03 2018-12-18 四川斐讯信息技术有限公司 一种智能音箱的音频处理方法及系统
CN109462794A (zh) * 2018-12-11 2019-03-12 Oppo广东移动通信有限公司 智能音箱及用于智能音箱的语音交互方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113488055A (zh) * 2020-04-28 2021-10-08 海信集团有限公司 一种智能交互方法、服务器及智能交互设备
CN113488055B (zh) * 2020-04-28 2024-03-08 海信集团有限公司 一种智能交互方法、服务器及智能交互设备
CN113724702A (zh) * 2020-05-25 2021-11-30 阿里巴巴集团控股有限公司 一种实现信息处理的架构、方法及装置和智能音箱及服务端
CN111818170A (zh) * 2020-07-20 2020-10-23 百度在线网络技术(北京)有限公司 网络通信方法和系统、及智能音箱
CN111818170B (zh) * 2020-07-20 2023-10-31 百度在线网络技术(北京)有限公司 网络通信方法和系统、及智能音箱
CN112039756A (zh) * 2020-09-10 2020-12-04 北京小米移动软件有限公司 一种建立实时通信的方法、装置、电子设备及介质

Similar Documents

Publication Publication Date Title
CN110971681A (zh) 语音交互方法、智能音箱、后台服务器及系统
US10482880B2 (en) Command and control of devices and applications by voice using a communication base system
US9386147B2 (en) Muting and un-muting user devices
CN103270738B (zh) 用于在多个音频或视频传感器可得到时处理语音和/或视频呼叫的通信系统和方法
US20050206721A1 (en) Method and apparatus for disseminating information associated with an active conference participant to other conference participants
CN107995360A (zh) 通话处理方法及相关产品
JP2009273118A (ja) 感情認識メッセージシステム、移動通信端末及びメッセージ蓄積サーバ
CN111683183B (zh) 一种多媒体会议非参会对话屏蔽处理方法及其系统
CN108449507A (zh) 语音通话数据处理方法、装置、存储介质及移动终端
US10236016B1 (en) Peripheral-based selection of audio sources
CN112887194B (zh) 实现听障人士通话的交互方法、装置、终端及存储介质
CN108449496A (zh) 语音通话数据检测方法、装置、存储介质及移动终端
KR101034554B1 (ko) 휴대단말의 통화품질 제어 방법 및 장치
TW201947924A (zh) 來電處理方法、裝置、智能音箱及存儲介質
CN108449504B (zh) 语音通话数据检测方法、装置、存储介质及移动终端
JP4787701B2 (ja) 通話管理装置、通話管理システム、及びプログラム
CN116052666A (zh) 语音消息处理方法、装置、系统、电子装置和存储介质
CN111988426B (zh) 基于声纹识别的通信方法、装置、智能终端及存储介质
CN111028837B (zh) 语音会话方法、语音识别系统及计算机存储介质
CN108942926B (zh) 一种人机交互的方法、装置和系统
CN111132089B (zh) 一种车内通话接听方法及系统
CN113923395A (zh) 一种提升会议质量的方法、设备和存储介质
US12015655B2 (en) Method and system for handling a teleconference
JP7137033B1 (ja) 通信端末及び通信方法
CN113079257B (zh) 设备关联、网络通信、信息处理方法、装置以及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Building 14, Tengfei science and Technology Park, 388 Xinping street, Suzhou Industrial Park, Suzhou area, China (Jiangsu) pilot Free Trade Zone, Suzhou, Jiangsu 215000

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215024 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Jiangsu Province

Applicant before: AI SPEECH Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200407