CN112449059A - 语音交互设备、基于语音交互设备实现通话的方法及系统 - Google Patents

语音交互设备、基于语音交互设备实现通话的方法及系统 Download PDF

Info

Publication number
CN112449059A
CN112449059A CN201910750065.0A CN201910750065A CN112449059A CN 112449059 A CN112449059 A CN 112449059A CN 201910750065 A CN201910750065 A CN 201910750065A CN 112449059 A CN112449059 A CN 112449059A
Authority
CN
China
Prior art keywords
voice
equipment
voice interaction
server
call
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910750065.0A
Other languages
English (en)
Inventor
胡益斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910750065.0A priority Critical patent/CN112449059A/zh
Publication of CN112449059A publication Critical patent/CN112449059A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4936Speech interaction details
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

公开了一种语音交互设备、基于语音交互设备实现通话的方法及系统。第一服务器用于维护语音交互设备的联系人信息,联系人信息包括至少一个对象名和与对象名关联的对象ID;第一服务器接收语音交互设备上传的语音呼叫指令,确定语音呼叫指令针对的对象名,并向语音交互设备下发与确定的对象名相关联的对象ID,语音交互设备基于对象ID向对应的设备发送通话请求。由此,可以为传统意义上不支持通话功能的语音交互设备赋予通话功能,以拓展语音交互设备的应用场景,提高用户的交互体验。

Description

语音交互设备、基于语音交互设备实现通话的方法及系统
技术领域
本公开涉及通信领域,特别是涉及一种语音交互设备、基于语音交互设备实现通话的方法及系统。
背景技术
随着语音交互技术的发展,越来越多的厂商为电子设备赋予了语音交互能力。但是现有的语音交互设备提供的语音交互服务主要局限在用户与设备之间,未能充分利用设备的语音交互能力来实现不同用户间的通话。
以智能音箱为例,目前智能音箱主要是根据识别出的用户的语音交互指令,为用户提供歌曲播放、天气查询等服务,当用户期望与不同场景中的用户进行通话时,仍需借助传统的通话设备实现,这在一定程度上限制了智能音箱的发展。举例来说,智能音箱的应用场景大多是住宅内(如客厅、卧室),用户群主要是家庭,包括爸爸、妈妈、爷爷、奶奶与孩子等,如果能够为智能音箱赋予通话功能,使得内部家庭成员之间或不同家庭成员之间都能够基于智能音箱进行通话,则可以大大扩展智能音箱的使用场景,提高用户的交互体验。
发明内容
本公开的一个目的在于提供一种能够为基于语音交互设备(如智能音箱)实现通话提供技术支持的方案。
根据本公开的第一个方面,提出了一种通话方法,包括:为语音交互设备维护联系人信息,所述联系人信息包括至少一个对象名和与所述对象名对应的对象ID;接收所述语音交互设备上传的语音;基于所述联系人信息,确定所述语音针对的对象名;向所述语音交互设备下发与确定的对象名相对应的对象ID,以便所述语音交互设备基于所述对象ID向对应的设备发送通话请求。
可选地,所述联系人信息包括第一联系人信息和/或第二联系人信息,所述第一联系人信息包括与所述语音交互设备关联的账号相同的至少部分第一设备的设备名称和设备ID,所述第二联系人信息包括与所述语音交互设备关联的账号不同的其他账号的账号名称和账号ID。
可选地,确定所述语音所针对的对象名的步骤包括:确定所述语音所针对的设备名称,向所述语音交互设备下发与确定的对象名相关联的对象ID的步骤包括:向所述语音交互设备下发与确定的设备名称相对应的设备ID,或者确定所述语音所针对的对象名的步骤包括:确定所述语音所针对的账号名称,向所述语音交互设备下发与确定的对象名相关联的对象ID的步骤包括:向所述语音交互设备下发与确定的账号名称相对应的账号ID。
可选地,所述第一联系人信息还包括所述第一设备的第一通信号码,所述第二联系人信息还包括所述账号ID所关联的第二设备的第二通信号码,该方法还包括:在所述语音交互设备无法通过所述设备ID建立通话的情况下,向所述语音交互设备下发与所述设备ID对应的第一设备的第一通信号码,以便所述语音交互设备通过所述第一通信号码与对应的第一设备建立通话;并且/或者在所述语音交互设备无法通过所述账号ID建立通话的情况下,向所述语音交互设备下发所述账号ID所关联的第二设备的第二通信号码,以便所述语音交互设备通过所述第二通信号码与对应的第二设备建立通话。
可选地,所述至少部分第一设备包括:一个或多个语音交互设备;和/或一个或多个便携式电子设备。
可选地,该方法还包括:基于所述联系人信息训练语音识别模型,所述语音识别模型用于识别所述语音交互设备上传的语音所针对的对象名,其中,确定所述语音所针对的对象名的步骤包括:使用所述语音识别模型对所述语音进行识别,以确定所述语音所针对的对象名。
可选地,该方法还包括:接收与所述语音交互设备关联的账号相同的第一设备上传的通讯录,其中,所述为语音交互设备维护联系人信息的步骤包括:基于所述通讯录,维护所述语音交互设备的联系人信息。
可选地,所述通讯录包括以下至少一项:所述第一设备的设备信息;所述第一设备中的电话簿中的至少部分联系人信息;所述第一设备中安装的应用软件中的至少部分社交信息。
可选地,所述为语音交互设备维护联系人信息的步骤包括:接收语音交互设备上传的语音;对所述语音进行解析,确定所述语音针对的对象名以及与所述对象名对应的对象ID;将所述对象名和所述对象ID添加到所述语音交互设备的联系人信息中。
可选地,该方法还包括:获取通话双方的声纹信息,并构建由多个家庭成员的声纹信息及对象ID构成的群组。
可选地,该方法还包括:响应于识别出所述语音为求助信号,确定所述语音的声纹信息,并基于所述声纹信息所在的群组内其他家庭成员的对象ID,向对应的设备发送通话请求。
根据本公开的第二个方面,还提出了通话方法,适用于语音交互设备执行,包括:接收语音;向第一服务器上传所述语音;接收所述第一服务器下发的对象ID,所述对象ID为由所述第一服务器基于所述语音交互设备的联系人信息确定的与所述语音针对的对象名相对应的对象ID,其中,所述联系人信息包括至少一个对象名和与所述对象名对应的对象ID;基于所述对象ID向对应的设备发送通话请求。
可选地,所述联系人信息包括第一联系人信息和/或第二联系人信息,所述第一联系人信息包括与所述语音交互设备关联的账号相同的至少部分第一设备的设备名称和设备ID,所述第二联系人信息包括与所述语音交互设备关联的账号不同的其他账号的账号名称和账号ID。
可选地,在所述语音针对的是与所述语音交互设备关联的账号相同的第一设备的设备名称的情况下,所述对象ID为所述语音针对的设备名称所对应的设备ID,所述基于所述对象ID向对应的设备发送通话请求的步骤包括:基于所述设备ID向对应的第一设备发送通话请求,并且/或者在所述语音针对的是与所述语音交互设备关联的账号不同的其他账号的账号名称的情况下,所述对象ID为所述语音针对的账号名称所对应的账号ID,所述基于所述对象ID向对应的设备发送通话请求的步骤包括:向与所述账号ID关联的至少部分第二设备发送通话请求。
可选地,基于所述设备ID向对应的第一设备发送通话请求的步骤包括:调用第一应用软件开发工具包向第二服务器发送通话请求,由所述第二服务器将所述通话请求发送给第一设备,其中,所述通话请求用于表征期望与所述设备ID对应的第一设备建立通话,所述第二服务器通过与安装在所述第一设备内的第一客户端应用程序或集成在所述第一设备内的第一应用软件开发工具包进行通信,将所述通话请求发送给第一设备,所述第一客户端应用程序和所述第一应用软件开发工具包对应于同一应用,所述第二服务器为与所述第一客户端应用程序对应的服务端。
可选地,该方法还包括:在所述语音交互设备无法与对应的第一设备建立通话的情况下,接收用户的语音留言信息;调用所述第一应用软件开发工具包向所述第二服务器发送所述语音留言信息,由所述第二服务器将所述语音留言信息发送给所述第一设备。
可选地,所述向与所述账号ID关联的至少部分第二设备发送通话请求的步骤包括:调用第二应用软件开发工具包向第三服务器发送通话请求,由所述第三服务器将所述通话请求发送给所述第二设备,其中,所述通话请求用于表征期望与所述账号ID所关联的至少部分第二设备建立通话,所述第三服务器通过与安装在所述第二设备内的第二客户端应用程序或集成在所述第二设备内的第二应用软件开发工具包进行通信,将所述通话请求发送给所述第二设备,所述第二客户端应用程序与所述第二应用软件开发工具包对应于同一应用,所述第三服务器为与所述第二客户端应用程序对应的服务端,所述账号ID为登录所述第二客户端应用程序时使用的账号。
可选地,该方法还包括:在所述语音交互设备无法与对应的第二设备建立通话的情况下,接收用户的语音留言信息;调用所述第二应用软件开发工具包向所述第三服务器发送所述语音留言信息,由所述第三服务器将所述语音留言信息发送给所述第二设备。
可选地,所述第一联系人信息还包括所述第一设备的第一通信号码,所述第二联系人信息还包括所述账号ID所关联的第二设备的第二通信号码,该方法还包括:在所述语音交互设备无法通过所述设备ID建立通话的情况下,接收所述第一服务器下发的所述设备ID对应的第一设备的第一通信号码,基于所述第一通信号码与对应的第一设备建立通话,或者在所述语音交互设备无法通过所述账号ID建立通话的情况下,接收所述第一服务器下发的所述账号ID关联的第二设备的第二通信号码;基于所述第一通信号码或者所述第二通信号码与对应的设备建立通话。
可选地,所述基于所述第一通信号码或者所述第二通信号码与对应的设备建立通话的步骤包括:所述语音交互设备向第四服务器发送与接收到的通信号码所对应的设备建立通话的通话请求,以由所述第四服务器向所述通信号码对应的设备发送所述通话请求。
可选地,该方法还包括:为所述语音交互设备关联通信号码,以便所述语音交互设备利用所述通信号码与其他设备进行通话。
可选地,该方法还包括:判断所述语音是否为期望与其他设备进行通话的语音呼叫指令,在判定所述语音为所述语音呼叫指令的情况下,执行所述向第一服务器上传所述语音的步骤。
根据本公开的第三个方面,还提出了一种通话方法,包括:接收语音交互设备上传的语音;对所述语音进行解析,确定所述语音针对的对象名以及与所述对象名对应的对象ID;将所述对象名和所述对象ID添加到所述语音交互设备的联系人信息中,并向所述语音交互设备下发所确定的对象ID,以便所述语音交互设备基于所述对象ID向对应的设备发送通话请求。
根据本公开的第四个方面,还提出了一种通话方法,适用于语音交互设备执行,包括:接收语音;向第一服务器上传所述语音;接收所述第一服务器下发的对象ID,所述对象ID为由所述第一服务器对所述语音进行解析得到的;基于所述对象ID向对应的设备发送通话请求。
根据本公开的第五个方面,还提出了一种通话方法,适用于语音交互设备执行,包括:接收语音;对所述语音进行解析,确定所述语音针对的对象名以及与所述对象名对应的对象ID;将所述对象名和所述对象ID添加到所述语音交互设备的联系人信息中;以及基于所述对象ID向对应的设备发送通话请求。
根据本公开的第六个方面,还提出了一种通话方法,适用于语音交互设备执行,包括:接收语音;对所述语音进行解析,确定所述语音针对的对象名;基于联系人信息,确定与所确定的对象名对应的对象ID;以及基于所述对象ID向对应的设备发送通话请求。
根据本公开的第七个方面,还提出了一种服务器,包括:存储模块,用于为语音交互设备维护联系人信息,所述联系人信息包括至少一个对象名和与所述对象名对应的对象ID;接收模块,用于接收所述语音交互设备上传的语音;识别模块,用于基于所述联系人信息,确定所述语音针对的对象名;下发模块,用于向所述语音交互设备下发与确定的对象名相对应的对象ID,以便所述语音交互设备基于所述对象ID向对应的设备发送通话请求。
根据本公开的第八个方面,还提出了一种服务器,包括:接收模块,用于接收语音交互设备上传的语音;解析模块,用于对所述语音进行解析,确定所述语音针对的对象名以及与所述对象名对应的对象ID;存储模块,用于将所述对象名和所述对象ID添加到所述语音交互设备的联系人信息中;以及下发模块,用于向所述语音交互设备下发所确定的对象ID,以便所述语音交互设备基于所述对象ID向对应的设备发送通话请求。
根据本公开的第九个方面,还提出了一种语音交互设备,包括:第一接收模块,用于接收语音;上传模块,用于向第一服务器上传所述语音;第二接收模块,用于接收所述第一服务器下发的对象ID,所述对象ID为由所述第一服务器基于所述语音交互设备的联系人信息确定的与所述语音针对的对象名相对应的对象ID,其中,所述联系人信息包括至少一个对象名和与所述对象名对应的对象ID;以及发送模块,用于基于所述对象ID向对应的设备发送通话请求。
根据本公开的第十个方面,还提出了一种语音交互设备,包括:第一接收模块,用于接收语音;上传模块,用于向向第一服务器上传所述语音;第二接收模块,用于接收所述第一服务器下发的对象ID,所述对象ID为由所述第一服务器对所述语音进行解析得到的;以及发送模块,用于基于所述对象ID向对应的设备发送通话请求。
根据本公开的第十一个方面,还提出了一种语音交互设备,包括:接收模块,用于接收语音;解析模块,用于对所述语音进行解析,确定所述语音针对的对象名以及与所述对象名对应的对象ID;存储模块,用于将所述对象名和所述对象ID添加到所述语音交互设备的联系人信息中;以及发送模块,用于基于所述对象ID向对应的设备发送通话请求。
根据本公开的第十二个方面,还提出了一种语音交互设备,包括:接收模块,用于接收语音;解析模块,用于对所述语音进行解析,确定所述语音针对的对象名;确定模块,用于基于联系人信息,确定与所确定的对象名对应的对象ID;以及发送模块,用于基于所述对象ID向对应的设备发送通话请求。
根据本公开的第十三个方面,还提出了一种基于语音交互设备实现通话的系统,其特征在于,包括:语音交互设备和第一服务器,所述第一服务器用于维护所述语音交互设备的联系人信息,所述联系人信息包括至少一个对象名和与所述对象名对应的对象ID,所述第一服务器接收所述语音交互设备上传的语音,确定所述语音针对的对象名,并向所述语音交互设备下发与确定的对象名相对应的对象ID,所述语音交互设备基于所述对象ID向对应的设备发送通话请求。
根据本公开的第十四个方面,还提出了一种计算设备,包括:处理器;以及存储器,其上存储有可执行代码,当可执行代码被处理器执行时,使处理器执行如本公开第一个方面至第六个方面中任一方面述及的方法。
根据本公开的第十五个方面,还提出了一种非暂时性机器可读存储介质,其上存储有可执行代码,当可执行代码被电子设备的处理器执行时,使处理器执行如本公开第一个方面至第六个方面中任一方面述及的方法。
本公开可以充分利用语音交互设备的语音交互能力,为传统意义上不支持通话功能的语音交互设备赋予通话功能,以拓展语音交互设备的应用场景,提高用户的交互体验。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1示出了根据本公开一实施例的基于语音交互设备实现通话的系统的结构示意图。
图2示出了根据本公开一实施例的基于PSTN实现通话的流程示意图。
图3示出了一种实现通话业务的架构示意图。
图4A示出了关联同一账号的设备间的通话示意图。
图4B示出了关联不同账号的设备间的通话示意图。
图5示出了根据本公开一实施例的语音交互设备的结构的示意性方框图。
图6示出了根据本公开另一实施例的语音交互设备的结构的示意性方框图。
图7示出了根据本公开另一实施例的语音交互设备的结构的示意性方框图。
图8示出了根据本公开一实施例的服务器的结构的示意性方框图。
图9示出了根据本公开另一实施例的服务器的结构的示意性方框图。
图10示出了根据本公开一实施例的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本公开提出了一种基于语音交互设备的通话方案,使得用户可以利用语音交互设备与其他用户进行通话。其中语音交互设备可以是但不限于智能音箱、智能手环等支持语音交互功能的设备,特别地,本公开述及的语音交互设备是指与传统意义上的支持通话功能的通讯设备(如手机)不同的设备。
换言之,本公开是为原本不具备通话功能的语音交互设备赋予与其他设备进行通话的能力,以提高设备的用户体验,拓展设备的使用场景。例如,对于没有手机的儿童或老人,基于本公开的方案,可以利用家中设置的智能音箱,与家庭内成员或其他亲朋好友进行通话。
图1示出了根据本公开一实施例的基于语音交互设备实现通话的系统的结构示意图。如图1所示,系统包括语音交互设备10和第一服务器20。作为可选实施例,系统还可以包括应用服务器30(也即下文述及的第二服务器或第三服务器)和/或被叫设备40(也即下文述及的第一设备或第二设备)。
第一服务器
第一服务器20可以视为语音交互设备10的服务端。以语音交互设备10是智能音箱为例,第一服务器20可以是智能音箱的服务端。
可以由第一服务器20维护语音交互设备10的联系人信息。作为示例,第一服务器20可以为关联相同账号的设备维护联系人信息。也就是说,第一服务器20可以为多个关联相同账号的语音交互设备10维护相同的联系人信息。也即,关联相同账号的多个设备可以共用相同的联系人信息。
在本公开中,同一个账号可以关联多个设备,并且这多个设备除了可以是一个或多个语音交互设备10外,还可以包括其他类型的设备,如可以包括手机、IPAD等便携式电子设备。
可以在手机、IPAD等设备上运行客户端应用程序(也即图1中示出的APP),可以通过APP关联(即绑定)一个或多个语音交互设备10,由此,这一个或多个语音交互设备10就与运行APP时所登录的账号关联起来。并且,运行APP的设备也可以视为该账号所关联的设备。其中,这里述及的账号可以是与APP对应的APP账号,也可以是APP授权的其他客户端应用程序的账号,还可以是手机号、身份证号等多种类型的账号。
第一服务器20可以视为APP的服务端,因此第一服务器20可以接收与语音交互设备10关联的APP上传的通讯录。第一服务器20在接收到通讯录后,可以基于通讯录,维护语音交互设备10的联系人信息。APP上传的通讯录中除了可以包括与运行APP时所登录的账号关联的设备的设备信息(如设备名称、设备ID)之外,还可以包括运行APP的设备中的电话簿信息(如联系人名称、联系电话),和/或运行APP的设备中安装的应用软件中的社交信息(如应用软件中的好友名称、账号ID)。
可选地,第一服务器20为语音交互设备10维护的联系人信息可以是指相对较为重要的联系人的信息,例如家庭成员、亲近的朋友等联系人的信息。因此,在向第一服务器20上传通信录时,可以有针对性地上传特定联系人信息,如可以仅上传家庭成员、亲近朋友、最近或频繁联系人等联系人信息。
第一服务器20为语音交互设备10维护的联系人信息可以包括至少一个对象名和与对象名关联的对象ID。这里的对象名可以是设备名称,也可以是账号名称,相应地对象ID可以是设备ID,也可以是账号ID。
作为示例,联系人信息可以包括第一联系人信息和/或第二联系人信息。
第一联系人信息包括与语音交互设备20关联的账号相同的至少部分第一设备的设备名称和设备ID。设备名称可以是由用户为第一设备编辑的名称,如对于关联同一账号的家庭内的多个智能音箱来说,可以根据智能音箱的使用者的家庭成员角色,编辑设备名称,例如可以将爸爸使用的智能音箱的设备名称编辑为“爸爸”,将爷爷使用的智能音箱的设备名称编辑为“爷爷”。设备ID可以是设备的唯一标识符,如可以是设备的出厂编号或设备的UDID(Unique Device Identifier,设备唯一标识)。可选地,第一联系人信息还可以包括第一设备的通信号码(为了便于区分,可以称为第一通信号码)。
第二联系人信息包括与语音交互设备20关联的账号不同的其他账号的账号名称和账号ID。这里述及的其他账号可以是与语音交互设备20关联的账号属于同一客户端应用程序的账号,也可以是属于不同客户端应用程序的账号。并且,第二联系人信息中的账号名称和账号ID可以相同,也可以不同。账号ID可以是指用于登录客户端应用程序所使用的ID(如手机号),账号名称可以是该账号ID在客户端应用程序内的名称,也可以是由用户为其添加的备注名称。可选地,第二联系人信息还可以包括账号ID所关联的设备的通信号码(为了便于区分,可以称为第二通信号码),第二联系人信息还可以包括用于标识账号ID所对应的客户端应用程序的应用标识信息。
另外,用户也可以通过与语音交互设备10的语音交互,向第一服务器20上传联系人信息。例如,用户可以做出包含对象名称和对象ID的语音,语音交互设备10在接收到语音后,可以将该语音上传到第一服务器20,由第一服务器对语音进行解析,确定语音针对的对象名以及与对象名对应的对象ID,并将对象名和对象ID添加到语音交互设备10的联系人信息中。
第一服务器20还可以基于联系人信息训练语音识别模型,语音识别模型用于识别语音交互设备20上传的语音所针对的对象名。在本公开中,第一服务器20可以以账号为单位,为同一账号下的联系人信息训练语音识别模型。也就是说,对于对应不同账号的联系人信息,第一服务器20可训练不同的语音识别模型。每个语音识别模型用于为其对应的账号所关联的语音交互设备提供语音识别服务。如此可以提高语音识别的准确性。
这是因为,如果第一服务器20在接收到语音交互设备10上传的语音后,基于通用的ASR技术对对该语音进行识别,则很可能出现识别不准的情况。举例来说,“张三”与“张山”的发音比较接近,假设语音交互设备10的联系人信息中只有对象名“张三”,而没有“张山”,如果用户发出的语音为“打电话给张三”,但是基于通用的ASR技术识别结果为“打电话给张山”,则无法从联系人信息中找到对象名为“张山”的联系人,使得第一服务器20不会向语音交互设备10下发对象ID,进而使得语音交互设备10无法与张三进行通话,从而会降低用户的交互体验。而基于针对具体联系人信息训练的语音识别模型,则可以克服这一问题。
作为示例,语音识别模型的输入可以是语音,输出可以是识别结果,即识别到的对象名(联系人信息中存在与语音对应的对象名的情况下)。语音识别模型可以是统计模型,也可以是机器学习模型(如神经网络模型),关于语音识别模型的具体结构及训练过程,本公开不再赘述。
语音交互设备
如上文所述,本公开述及的语音交互设备10是指与传统意义上的支持通话功能的通讯设备(如手机)不同的设备,也即原本不具备通话功能的语音交互设备,如智能音箱、智能手环。
以语音交互设备10是智能音箱为例,用户可以在手机、IPAD等电子设备上安装与智能音箱对应的客户端应用程序(即图1中示出的APP),并可以通过登录账号的方式运行APP。在通过账号登录APP之后,可以在所登录的账号下关联一个或多个设备。其中,同一账号所关联的设备除了可以包括一个或多个智能音箱外,还可以包括智能手环等设备。并且,用户还可以通过APP对同一账号下关联的设备的名称进行编辑,如可以根据设备的使用者的身份信息,编辑设备的名称。
语音交互设备10可以采集用户的语音。对于接收到的语音,语音交互设备10可以采取两种处理策略,一种是将接收到的语音直接上传给第一服务器20,由第一服务器20进行识别,并将识别结果或与识别结果对应的交互指令下发给语音交互设备10,这种策略对第一服务器20的压力较大;另一种是首先由语音交互设备10对接收到的语音进行处理,如果识别结果为非语音呼叫指令(如天气查询、歌曲播放等交互指令),则可以按照预定的交互逻辑进行处理,如果识别结果为语音呼叫指令,则可以将该语音上传给第一服务器20,由第一服务器20进行处理。
语音交互设备10还可以基于用户的语音交互,向第一服务器20上传联系人信息。例如,用户可以说出包含对象名和对象ID的语音,语音交互设备可以接收语音,并将接收到的语音上传给第一服务器20,由第一服务器20对语音进行解析,将识别出的对象名和对象ID添加到联系人信息中。语音交互设备10还可以接收第一服务器下发的对象ID,并基于对象ID向对应的设备发送通话请求。
语音交互设备10中还可以集成有一个或多个应用软件开发工具包(SDK),每个应用软件开发工具包对应一个客户端应用程序,语音交互设备10可以通过集成在其内的应用软件开发工具包与对应的服务器(例如图1中示出的应用服务器30)进行通讯。
通话流程
用户可以发出期望与被叫对象进行通话的语音呼叫指令,如“打电话给张三”。语音交互设备10在采集到用户的语音呼叫指令后,可以将语音呼叫指令上传给第一服务器20,由第一服务器20识别语音呼叫指令所针对的对象名。例如,第一服务器20可以通过调用预先训练好的与语音交互设备10对应的语音识别模型,对语音交互指令进行识别,以确定语音交互指令针对的对象名。在确定语音交互指令针对的对象名后,第一服务器20可以将与确定的对象名相关联的对象ID下发给语音交互设备10。由此,语音交互设备10可以基于对象ID向对应的设备发送通话请求。
如上文所述,第一服务器20为语音交互设备10维护的联系人信息可以分为第一联系人信息和第二联系人信息,第一联系人信息是指与语音交互设备10关联同一账号的设备信息,第二联系人信息是指与语音交互设备10关联的账号不同的其他账号的账号信息。
在本公开中,用户可以通过语音交互设备10和与语音交互设备10关联的账号相同的第一设备进行通话,也可以通过语音交互设备10和与其关联的账号不同的其他账号所关联的至少部分第二设备进行通话。也就是说,图1中示出的被叫设备40可以是与语音交互设备10关联的账号相同的第一设备,也可以是与语音交互设备10关联的账号不同的第二设备。
1、同账号下的通话
在语音呼叫指令针对的是与语音交互设备10关联相同账号的第一设备的情况下,第一服务器20可以将第一设备的设备ID下发给语音交互设备10,语音交互设备10可以基于设备ID向对应的第一设备发送通话请求。其中,设备ID是指用于对设备的身份进行标识的标识符,其可以是设备唯一标识符。
作为示例,语音交互设备10可以调用集成在其内的第一应用软件开发工具包向第二服务器发送与设备ID对应的第一设备建立通话的通话请求,这里所调用的第一应用软件开发工具包是指与语音交互设备10关联的账号所属的第一客户端应用程序相对应的应用软件开发工具包,第二服务器是与第一客户端应用程序对应的服务端。例如,在语音交互设备10关联的账号是应用A中的账号的情况下,第一客户端应用程序就是应用A,第一应用软件开发工具包就是与应用A对应的SDK,第二服务器就是与应用A对应的服务端。
第二服务器可以通过与安装在第一设备内的第一客户端应用程序或集成在第一设备内的第一应用软件开发工具包进行通信,将通话请求发送给第一设备。在第一设备接受通话请求的情况下,可以在语音交互设备10和第一设备之间建立通话(可以是语音通话,也可以是视频通话)。例如可以基于VOIP(Voice over Internet Protocol,基于IP的语音传输)方式建立语音交互设备10和第一设备之间的通话。VOIP的实现原理为本领域成熟技术,此处不再赘述。
在本实施例中,第一设备对应于图1中示出的被叫设备40,向第一设备发送的通话请求也即呼叫被叫请求,第二服务器对应于图1中示出的应用服务器30。
如图1所示,被叫设备40还可以向应用服务器30返回呼叫状态,这里述及的呼叫状态可以用于表征通话是否成功的状态。应用服务器30可以将呼叫状态告知第一服务器20。
在语音交互设备10无法通过设备ID与被叫设备40建立通话的情况下,例如在被叫设备40超时未响应的情况下,语音交互设备10还可以接收用户的语音留言信息。作为示例,在语音交互设备10无法通过设备ID与被叫设备40建立通话的情况下,语音交互设备10可以输出用于提示用户做出语音留言信息的提示信息,以便于接收用户的语音留言信息。
在接收到用户的语音留言信息后,可以调用集成在语音交互设备10内的第一应用软件开发工具包向第二服务器发送语音留言信息,以由第二服务器通过与安装在设备内的第一客户端应用程序或集成在设备内的第一应用软件开发工具进行通信,将语音留言信息发送给设备。
在语音交互设备10无法通过设备ID与被叫设备40建立通话的情况下,例如在被叫设备40超时未响应的情况下,第一服务器20还可以向语音交互设备10下发设备ID所对应的第一设备的第一通信号码,以便语音交互设备10通过第一通信号码与对应的第一设备建立通话。第一通信号码可以是虚拟号码或手机号码,如可以是通信运行商维护的虚拟号码或手机号码。
例如,语音交互设备10可以向第四服务器发送与第一通信号码对应的第一设备进行通信的通话请求。其中,这里述及的第四服务器可以是用于提供通信服务的通信服务平台。由此,在基于图1所示的方式呼叫不成功的情况下,可以基于被叫设备的通信号码再次进行呼叫,以提高呼叫成功率。其中,可以通过PSTN的方式实现被叫设备的再次呼叫。PSTN是指基于网络连接基础运营商大网的通话方式。关于PSTN的实现原理为本领域成熟技术,此处不再赘述。
2、不同账号间的通话
在语音呼叫指令针对的是与语音交互设备10关联的账号不同的其他账号的情况下,第一服务器20可以将对应的账号ID下发给语音交互设备10,语音交互设备10可以基于账号ID向与账号ID关联的至少部分第二设备发送通话请求。
作为示例,语音交互设备10可以调用集成在其内的第二应用软件开发工具包向第三服务器发送与账号ID所关联的至少部分第二设备建立通话的通话请求。以由第三服务器通过与安装在第二设备内的第二客户端应用程序或集成在第二设备内的第二应用软件开发工具包进行通信,将通话请求发送给第二设备。
第三服务器是与第二客户端应用程序对应的服务端,第二客户端应用程序和第二应用软件开发工具包对应于同一应用,账号ID为登录第二客户端应用程序时使用的账号。例如,在语音交互指令针对的账号名称所对应的账号ID是应用B中的账号的情况下,第二客户端应用程序就是应用B,第二应用软件开发工具包就是与应用B对应的SDK,第三服务器就是与应用B对应的服务端。
这种通过账号漫游的方式联系被叫设备,一方面可以保护设备隐私,使得关联不同账号的设备之间不可见;另一方面,与账号关联的所有第二设备都可以作为被叫设备,同时接收语音交互设备10的呼叫请求,如此可以大大提高呼叫成功率。
在基于第三服务器向与账号ID关联的多个第二设备发送通话请求的情况下,多个第二设备可以同时接收通话请求,且在一个第二设备与语音交互设备10成功建立通话的情况下,其他第二设备可以不再接收该呼叫请求。
可选地,用户还可以为关联同一账号下的多个设备设置来电响应设备,以方便管理设备的通话能力。在用户设置了其中一个设备作为来电响应设备的情况下,在其他用户向该账号发出通话请求时,仅来电响应设备接收到呼叫请求。
在本实施例中,第二设备对应于图1中示出的被叫设备40,向第二设备发送的通话请求也即呼叫被叫请求,第三服务器对应于图1中示出的应用服务器30。
如图1所示,第二设备还可以向第三服务器返回呼叫状态,这里述及的呼叫状态可以用于表征通话是否成功的状态。第三服务器可以将呼叫状态告知第一服务器20。
在语音交互设备10无法通过账号ID与第二设备建立通话的情况下,例如在第二设备超时未响应的情况下,语音交互设备10还可以接收用户的语音留言信息。作为示例,在语音交互设备10无法通过账号ID与第二设备建立通话的情况下,语音交互设备10可以输出用于提示用户做出语音留言信息的提示信息,以便于接收用户的语音留言信息。
在接收到用户的语音留言信息后,可以调用集成在语音交互设备10内的第二应用软件开发工具包向第三服务器发送语音留言信息,以由第三服务器通过与安装在第二设备内的第二客户端应用程序或集成在第二设备内的第二应用软件开发工具进行通信,将语音留言信息发送给第二设备。其中,可以由第三服务器将语音留言信息发送给账号ID关联的多个第二设备。
在语音交互设备10无法通过账号ID与第二设备建立通话的情况下,例如在第二设备超时未响应的情况下,第一服务器20还可以向语音交互设备10下发账号ID关联的第二设备的第二通信号码,以便语音交互设备10通过第二通信号码与对应的第二设备建立通话。第二通信号码可以是虚拟号码或手机号码,如可以是通信运行商维护的虚拟号码或手机号码。
例如,语音交互设备10可以向第四服务器发送与第二通信号码对应的设备进行通信的通话请求。其中,这里述及的第四服务器可以是用于提供通信服务的通信服务平台。由此,在基于图1所示的方式呼叫不成功的情况下,可以基于第二设备的通信号码再次进行呼叫,以提高呼叫成功率。其中,可以通过PSTN的方式实现第二设备的再次呼叫。PSTN是指基于网络连接基础运营商大网的通话方式。关于PSTN的实现原理为本领域成熟技术,此处不再赘述。
图2示出了基于PSTN实现通话的流程示意图。
如图2所示,第一服务器在接收到语音交互设备10上传的语音后,可以将与被叫设备40对应的通信号码下发给语音交互设备10,以便语音交互设备10通过通信号码与对应的被叫设备40进行通话。
语音交互设备10在接收到通信号码后,可以通过ARTC(Advanced Real-TimeCommunciation,硬实时以太网通信)服务端60将呼叫被叫请求发送给通信服务器50(也即上文述及的第四服务器),由通信服务器50向被叫设备40发送呼叫请求。
通信服务器50还可以将被叫设备40的应答转发给ARTC服务端60,ARTC服务端60可以将应答通知给语音交互设备10和第一服务器20。在应答为接受通话的情况下,语音交互设备10就可以实现与被叫设备40的通话。其中,ARTC服务端60还可以将开始通话、结束通话等事件通知给第一服务器20。
图3示出了一种实现通话业务的架构示意图。
如图3所示,客户端APP可以基于私有协议或实时传输协议(如RTP)与ARTC服务端建立通信连接。其中,客户端APP可以是指语音交互设备中安装的APP,也可以是指与语音交互设备关联的账号相同的其他第一设备中安装的APP。
通信服务平台是指提供通信号码的号码服务平台。例如,通信服务平台可以提供号码注册、号码充值、话单查询、退款办理等与通信号码相关的服务项目。用户可以基于客户端APP与通信服务平台通信,为语音交互设备办理开卡、销卡、充值、话单查询、退款办理等业务。
通信服务平台可以基于SIP协议、RTP协议与ARTC服务端通信,并可以基于SIP协议、RTP协议与数据语音平台通信,将其提供的通信号码托管到数据语音平台。
通信服务平台提供的通信号码可以是虚拟号码。在语音交互设备注册了通信服务平台提供的通信号码,并基于该通信号码与基础运营商提供的通信号码所对应的手机、固话等被叫设备进行通话时,可以通过ARTC服务端向通信服务平台发送呼叫请求。通信服务平台可以基于数据语音平台将呼叫请求发送至对应的基础运营商,由基础运营商呼叫手机、固话等被叫设备。其中,第一服务器还可以通过回调通知接口,获取通话事件。
应用场景
图4A示出了关联同一账号的设备间的通话示意图。
图4B示出了关联不同账号的设备间的通话示意图。
如图4A所示,111、112、113、114是指关联同一账号的设备。其中,111、112、113可以是语音交互设备,如可以是智能音箱。114可以是指客户端应用程序,也可以是运行客户端应用程序的设备,如手机。
对于关联同一账号的设备,用户可以通过指定设备名称直接定向发起设备之间的通话。以语音交互设备为智能音箱为例,家庭内部的多个智能音箱可以关联同一账号,并且该账号还可以与手机、IPAD等设备上安装的客户端应用程序相关联。用户可以对该账号关联的任意设备发起语音或视频通话。
如图4B所示,211、212、213是指关联同一账号的设备,221、222、223是指关联另一账号的设备。211、212、213所关联的账号不同于221、222、223所关联的账号。
出于隐私考虑,不同账号所关联的设备对用户不可见,不同账号间可以通过账号漫游的方式联系账号所关联的设备,账号所关联的设备可以同时接收通话请求,但只有一个设备可以接通。设备间可以支持VOIP、PSTN的呼叫方式。并且用户还可以进行防骚扰设置,用于防止陌生人呼入。其中,这里述及的陌生人呼入是指为其维护的联系人信息之外的设备的呼入。
在本公开中,用户还可以设置来电响应设备,即在关联同一账号的多个设备中设定一个或多个来电响应设备,以方便管理家里设备的通话能力。例如,用户B可以设定221为来电响应设备,由此,用户A在向221、222、223所关联的账号发送呼叫请求时,仅221会接收到呼叫请求。
在通话中还可以支持语音可挂断,并且在设备处于勿扰模式下接收到通话请求时,设备可以不进行灯光与声效的提示。
在本公开中,还可以语音交互设备(如智能音箱)赋予虚拟的通信号码服务,使得语音交互设备就好像插有SIM卡的手机一样,能够直接通过拨打号码的方式实现与其他设备的通话。
在本公开应用于智能音箱的情况下,任何家庭成员都可以轻易使用智能音箱彼此间进行通话,同样双方拥有智能音箱的不同账号的用户也可以使用设备直接互相打电话。例如,“打电话给爸爸”、“跟爸爸视频”、“我想跟爸爸网络电话”,都是实现对应通话方式的语音呼叫指令。
至此,结合图1至图4B就本公开的基于语音交互设备的通话方案的实现流程做了示例性说明。
需要说明的是,上文是以第一服务器为语音交互设备维护联系人信息,由第一服务器向语音交互设备下发被叫对象ID或被叫对象的通信号码为例进行说明的。本公开也可以不向第一服务器上传通信录,而是由语音交互设备维护联系人信息。
换言之,在用户通过语音交互设备首次呼叫被叫对象的情况下,用户可以说出包含对象名和对象ID的语音呼叫指令。可以由语音交互设备接收语音(也即语音呼叫指令),对语音进行解析,确定语音针对的对象名以及与对象名对应的对象ID,将对象名和对象ID添加到所述语音交互设备的联系人信息中,并可以基于对象ID向对应的设备发送通话请求。
后续用户可以仅说出包含被叫对象的对象名的语音,由语音交互设备对接收到的语音进行解析,确定语音针对的对象名,然后基于本地维护的联系人信息,确认与所确定的对象名对应的对象ID,然后基于对象ID向对应的设备发送通话请求。基于对象ID与被叫设备进行通话的具体实现流程可以参见上文相关描述,此处不再赘述。
在本公开中,还可以通过对话获取对话双方的声纹信息,并可以构建由多个家庭成员的声纹信息及对象ID构成的群组(也即家庭群组)。在用户与语音交互设备进行语音交互的过程中,识别出语音为求助信号的情况下,可以确定语音的声纹信息,并基于声纹信息所在的群组内其他家庭成员的对象ID,向对应的设备发送通话请求。
由此,通过基于声纹信息构建的家庭群组,在老人、儿童需要求助的情况下,可以通过接收到的语音的声纹信息,第一时间获取待求助对象的家人信息,实现健康监护。
构建家庭群组的操作可以由语音交互设备执行,也可以由与语音交互设备对应的服务器(即上文述及的第一服务器)执行。
本公开还可以实现为一种语音交互设备。语音交互设备的功能模块可以由实现本发明原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是,下面结合图5至图7所描述的功能模块可以组合起来或者划分成子模块,从而实现上述发明的原理。因此,本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。
下面就语音交互设备可以具有的功能模块以及各功能模块可以执行的操作做简要说明,对于其中涉及的细节部分可以参见上文相关描述,这里不再赘述。
图5示出了根据本公开一实施例的语音交互设备的结构的示意性方框图。参见图5,语音交互设备500包括第一接收模块510、上传模块520、第二接收模块530以及发送模块540。
在本公开的一个实施例中,第一接收模块510用于接收语音。上传模块520用于向第一服务器上传所述语音。第二接收模块530用于接收所述第一服务器下发的对象ID,所述对象ID为由所述第一服务器基于所述语音交互设备的联系人信息确定的与所述语音针对的对象名相对应的对象ID,其中,所述联系人信息包括至少一个对象名和与所述对象名关联的对象ID。发送模块540用于基于所述对象ID向对应的设备发送通话请求。
在本公开的另一个实施例中,第一接收模块510用于接收语音。上传模块520用于向向第一服务器上传所述语音;第二接收模块530用于接收所述第一服务器下发的对象ID,所述对象ID为由所述第一服务器对所述语音进行解析得到的;发送模块540用于基于所述对象ID向对应的设备发送通话请求。
关于语音交互设备500中各功能模块涉及的细节部分,可以参见上文相关描述,这里不再赘述。
图6示出了根据本公开另一实施例的语音交互设备的结构的示意性方框图。参见图6,语音交互设备600包括接收模块610、解析模块620、存储模块630以及发送模块640。
在本实施例中,可以由语音交互设备600通过用户的语音交互,维护联系人信息。也即在用户首次呼叫被叫对象的情况下,用户可以说出包含对象名和对象ID的语音(也即语音呼叫指令)。
接收模块610用于接收语音。解析模块620用于对所述语音进行解析,确定所述语音针对的对象名以及与所述对象名对应的对象ID。存储模块630用于将所述对象名和所述对象ID添加到所述语音交互设备的联系人信息中。发送模块640用于基于所述对象ID向对应的设备发送通话请求。
关于语音交互设备600中各功能模块涉及的细节部分,可以参见上文相关描述,这里不再赘述。
图7示出了根据本公开另一实施例的语音交互设备的结构的示意性方框图。参见图7,语音交互设备700包括接收模块710、解析模块720、确定模块730以及发送模块740。
在本实施例中,可以由语音交互设备700维护联系人信息。在用户非首次呼叫被叫对象的情况下,用户可以说出包含对象名的语音(也即语音呼叫指令)。
接收模块710用于接收语音。解析模块720用于对所述语音进行解析,确定所述语音针对的对象名。确定模块730用于基于联系人信息,确定与所确定的对象名对应的对象ID。发送模块740用于基于所述对象ID向对应的设备发送通话请求。
关于语音交互设备700中各功能模块涉及的细节部分,可以参见上文相关描述,这里不再赘述。
本公开还可以实现为一种服务器。其中,服务器的功能模块可以由实现本发明原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是,下面结合图8、图9所描述的功能模块可以组合起来或者划分成子模块,从而实现上述发明的原理。因此,本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。
下面就服务器可以具有的功能模块以及各功能模块可以执行的操作做简要说明,对于其中涉及的细节部分可以参见上文相关描述,这里不再赘述。
图8示出了根据本公开一实施例的服务器的结构的示意性方框图。参见图8,服务器800包括存储模块810、接收模块820、识别模块830以及下发模块840。
存储模块810用于为语音交互设备维护联系人信息,所述联系人信息包括至少一个对象名和与所述对象名关联的对象ID。接收模块820用于接收所述语音交互设备上传的语音。识别模块830用于基于所述联系人信息,确定所述语音针对的对象名。下发模块840用于向所述语音交互设备下发与确定的对象名相关联的对象ID,以便所述语音交互设备基于所述对象ID向对应的终端发送通话请求。
关于服务器800中各功能模块涉及的细节部分,可以参见上文相关描述,这里不再赘述。
图9示出了根据本公开另一实施例的服务器的结构的示意性方框图。参见图9,服务器900包括接收模块910、解析模块920、存储模块930以及下发模块940。
在用户首次呼叫被叫对象的情况下,用户可以说出包含对象名和对象ID的语音(也即语音呼叫指令)。
接收模块910用于接收语音交互设备上传的语音。解析模块920用于对语音进行解析,确定语音针对的对象名以及与对象名对应的对象ID。存储模块930用于将对象名和对象ID添加到语音交互设备的联系人信息中。下发模块940用于向语音交互设备下发所确定的对象ID,以便语音交互设备基于对象ID向对应的设备发送通话请求。
在用户非首次呼叫被叫对象的情况下,用户可以说出仅包含对象名的语音(也即语音呼叫指令)。此时,解析模块920可以对接收模块910接收到的语音进行解析,以确定语音针对的对象名,然后基于联系人信息查找与对象名对应的对象ID,最后由下发模块940向语音交互设备下发查找到的对象ID,以便语音交互设备基于对象ID向对应的设备发送通话请求
图10示出了根据本公开一实施例可用于实现上述通话方法的计算设备的结构示意图。
参见图10,计算设备1000包括存储器1010和处理器1020。
处理器1020可以是一个多核的处理器,也可以包含多个处理器。在一些实施例中,处理器1020可以包含一个通用的主处理器以及一个或多个特殊的协处理器,例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中,处理器1020可以使用定制的电路实现,例如特定用途集成电路(ASIC,Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA,Field Programmable Gate Arrays)。
存储器1010可以包括各种类型的存储单元,例如系统内存、只读存储器(ROM),和永久存储装置。其中,ROM可以存储处理器1020或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器1010可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器1010可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
存储器1010上存储有可执行代码,当可执行代码被处理器1020处理时,可以使处理器1020执行上文述及的通话方法。
上文中已经参考附图详细描述了根据本发明的语音交互设备、基于语音交互设备实现通话的方法及系统。
此外,根据本发明的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。
或者,本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时,使所述处理器执行根据本发明的上述方法的各个步骤。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (35)

1.一种通话方法,其特征在于,包括:
为语音交互设备维护联系人信息,所述联系人信息包括至少一个对象名和与所述对象名对应的对象ID;
接收所述语音交互设备上传的语音;
基于所述联系人信息,确定所述语音针对的对象名;
向所述语音交互设备下发与确定的对象名相对应的对象ID,以便所述语音交互设备基于所述对象ID向对应的设备发送通话请求。
2.根据权利要求1所述的通话方法,其特征在于,
所述联系人信息包括第一联系人信息和/或第二联系人信息,
所述第一联系人信息包括与所述语音交互设备关联的账号相同的至少部分第一设备的设备名称和设备ID,
所述第二联系人信息包括与所述语音交互设备关联的账号不同的其他账号的账号名称和账号ID。
3.根据权利要求2所述的通话方法,其特征在于,
确定所述语音所针对的对象名的步骤包括:确定所述语音所针对的设备名称,向所述语音交互设备下发与确定的对象名相关联的对象ID的步骤包括:向所述语音交互设备下发与确定的设备名称相对应的设备ID,
或者确定所述语音所针对的对象名的步骤包括:确定所述语音所针对的账号名称,向所述语音交互设备下发与确定的对象名相关联的对象ID的步骤包括:向所述语音交互设备下发与确定的账号名称相对应的账号ID。
4.根据权利要求3所述的通话方法,其特征在于,所述第一联系人信息还包括所述第一设备的第一通信号码,所述第二联系人信息还包括所述账号ID所关联的第二设备的第二通信号码,该方法还包括:
在所述语音交互设备无法通过所述设备ID建立通话的情况下,向所述语音交互设备下发与所述设备ID对应的第一设备的第一通信号码,以便所述语音交互设备通过所述第一通信号码与对应的第一设备建立通话;并且/或者
在所述语音交互设备无法通过所述账号ID建立通话的情况下,向所述语音交互设备下发所述账号ID所关联的第二设备的第二通信号码,以便所述语音交互设备通过所述第二通信号码与对应的第二设备建立通话。
5.根据权利要求2所述的通话方法,其特征在于,所述至少部分第一设备包括:
一个或多个语音交互设备;和/或
一个或多个便携式电子设备。
6.根据权利要求1所述的通话方法,其特征在于,还包括:
基于所述联系人信息训练语音识别模型,所述语音识别模型用于识别所述语音交互设备上传的语音所针对的对象名,
其中,确定所述语音所针对的对象名的步骤包括:使用所述语音识别模型对所述语音进行识别,以确定所述语音所针对的对象名。
7.根据权利要求1所述的通话方法,其特征在于,还包括:
接收与所述语音交互设备关联的账号相同的第一设备上传的通讯录,其中,所述为语音交互设备维护联系人信息的步骤包括:基于所述通讯录,维护所述语音交互设备的联系人信息。
8.根据权利要求7所述的通话方法,其特征在于,所述通讯录包括以下至少一项:
所述第一设备的设备信息;
所述第一设备中的电话簿中的至少部分联系人信息;
所述第一设备中安装的应用软件中的至少部分社交信息。
9.根据权利要求1所述的通话方法,其特征在于,所述为语音交互设备维护联系人信息的步骤包括:
接收语音交互设备上传的语音;
对所述语音进行解析,确定所述语音针对的对象名以及。
10.根据权利要求1所述的通话方法,其特征在于,还包括:
获取通话双方的声纹信息,并构建由多个家庭成员的声纹信息及对象ID构成的群组。
11.根据权利要求10所述的通话方法,其特征在于,还包括:
响应于识别出所述语音为求助信号,确定所述语音的声纹信息,并基于所述声纹信息所在的群组内其他家庭成员的对象ID,向对应的设备发送通话请求。
12.一种通话方法,适用于语音交互设备执行,其特征在于,包括:
接收语音;
向第一服务器上传所述语音;
接收所述第一服务器下发的对象ID,所述对象ID为由所述第一服务器基于所述语音交互设备的联系人信息确定的与所述语音针对的对象名相对应的对象ID,其中,所述联系人信息包括至少一个对象名和与所述对象名对应的对象ID;
基于所述对象ID向对应的设备发送通话请求。
13.根据权利要求12所述的通话方法,其特征在于,
所述联系人信息包括第一联系人信息和/或第二联系人信息,
所述第一联系人信息包括与所述语音交互设备关联的账号相同的至少部分第一设备的设备名称和设备ID,
所述第二联系人信息包括与所述语音交互设备关联的账号不同的其他账号的账号名称和账号ID。
14.根据权利要求13所述的通话方法,其特征在于,
在所述语音针对的是与所述语音交互设备关联的账号相同的第一设备的设备名称的情况下,所述对象ID为所述语音针对的设备名称所对应的设备ID,所述基于所述对象ID向对应的设备发送通话请求的步骤包括:基于所述设备ID向对应的第一设备发送通话请求,并且/或者
在所述语音针对的是与所述语音交互设备关联的账号不同的其他账号的账号名称的情况下,所述对象ID为所述语音针对的账号名称所对应的账号ID,所述基于所述对象ID向对应的设备发送通话请求的步骤包括:向与所述账号ID关联的至少部分第二设备发送通话请求。
15.根据权利要求14所述的通话方法,其特征在于,基于所述设备ID向对应的第一设备发送通话请求的步骤包括:
调用第一应用软件开发工具包向第二服务器发送通话请求,由所述第二服务器将所述通话请求发送给第一设备,其中,
所述通话请求用于表征期望与所述设备ID对应的第一设备建立通话,
所述第二服务器通过与安装在所述第一设备内的第一客户端应用程序或集成在所述第一设备内的第一应用软件开发工具包进行通信,将所述通话请求发送给第一设备,
所述第一客户端应用程序和所述第一应用软件开发工具包对应于同一应用,所述第二服务器为与所述第一客户端应用程序对应的服务端。
16.根据权利要求15所述的通话方法,其特征在于,还包括:
在所述语音交互设备无法与对应的第一设备建立通话的情况下,接收用户的语音留言信息;
调用所述第一应用软件开发工具包向所述第二服务器发送所述语音留言信息,由所述第二服务器将所述语音留言信息发送给所述第一设备。
17.根据权利要求14所述的通话方法,其特征在于,所述向与所述账号ID关联的至少部分第二设备发送通话请求的步骤包括:
调用第二应用软件开发工具包向第三服务器发送通话请求,由所述第三服务器将所述通话请求发送给所述第二设备,其中,
所述通话请求用于表征期望与所述账号ID所关联的至少部分第二设备建立通话,
所述第三服务器通过与安装在所述第二设备内的第二客户端应用程序或集成在所述第二设备内的第二应用软件开发工具包进行通信,将所述通话请求发送给所述第二设备,
所述第二客户端应用程序与所述第二应用软件开发工具包对应于同一应用,所述第三服务器为与所述第二客户端应用程序对应的服务端,所述账号ID为登录所述第二客户端应用程序时使用的账号。
18.根据权利要求17所述的通话方法,其特征在于,还包括:
在所述语音交互设备无法与对应的第二设备建立通话的情况下,接收用户的语音留言信息;
调用所述第二应用软件开发工具包向所述第三服务器发送所述语音留言信息,由所述第三服务器将所述语音留言信息发送给所述第二设备。
19.根据权利要求14所述的通话方法,其特征在于,所述第一联系人信息还包括所述第一设备的第一通信号码,所述第二联系人信息还包括所述账号ID所关联的第二设备的第二通信号码,该方法还包括:
在所述语音交互设备无法通过所述设备ID建立通话的情况下,接收所述第一服务器下发的所述设备ID对应的第一设备的第一通信号码,基于所述第一通信号码与对应的第一设备建立通话,或者在所述语音交互设备无法通过所述账号ID建立通话的情况下,接收所述第一服务器下发的所述账号ID关联的第二设备的第二通信号码;
基于所述第一通信号码或者所述第二通信号码与对应的设备建立通话。
20.根据权利要求19所述的通话方法,其特征在于,所述基于所述第一通信号码或者所述第二通信号码与对应的设备建立通话的步骤包括:
所述语音交互设备向第四服务器发送与接收到的通信号码所对应的设备建立通话的通话请求,以由所述第四服务器向所述通信号码对应的设备发送所述通话请求。
21.根据权利要求12所述的通话方法,其特征在于,还包括:
为所述语音交互设备关联通信号码,以便所述语音交互设备利用所述通信号码与其他设备进行通话。
22.根据权利要求12所述的通话方法,其特征在于,还包括:
判断所述语音是否为期望与其他设备进行通话的语音呼叫指令,在判定所述语音为所述语音呼叫指令的情况下,执行所述向第一服务器上传所述语音的步骤。
23.一种通话方法,其特征在于,包括:
接收语音交互设备上传的语音;
对所述语音进行解析,确定所述语音针对的对象名以及与所述对象名对应的对象ID;
将所述对象名和所述对象ID添加到所述语音交互设备的联系人信息中,并向所述语音交互设备下发所确定的对象ID,以便所述语音交互设备基于所述对象ID向对应的设备发送通话请求。
24.一种通话方法,适用于语音交互设备执行,其特征在于,包括:
接收语音;
向第一服务器上传所述语音;
接收所述第一服务器下发的对象ID,所述对象ID为由所述第一服务器对所述语音进行解析得到的;
基于所述对象ID向对应的设备发送通话请求。
25.一种通话方法,适用于语音交互设备执行,其特征在于,包括:
接收语音;
对所述语音进行解析,确定所述语音针对的对象名以及与所述对象名对应的对象ID;
将所述对象名和所述对象ID添加到所述语音交互设备的联系人信息中;以及
基于所述对象ID向对应的设备发送通话请求。
26.一种通话方法,适用于语音交互设备执行,其特征在于,包括:
接收语音;
对所述语音进行解析,确定所述语音针对的对象名;
基于联系人信息,确定与所确定的对象名对应的对象ID;以及
基于所述对象ID向对应的设备发送通话请求。
27.一种服务器,其特征在于,包括:
存储模块,用于为语音交互设备维护联系人信息,所述联系人信息包括至少一个对象名和与所述对象名对应的对象ID;
接收模块,用于接收所述语音交互设备上传的语音;
识别模块,用于基于所述联系人信息,确定所述语音针对的对象名;
下发模块,用于向所述语音交互设备下发与确定的对象名相对应的对象ID,以便所述语音交互设备基于所述对象ID向对应的设备发送通话请求。
28.一种服务器,其特征在于,包括:
接收模块,用于接收语音交互设备上传的语音;
解析模块,用于对所述语音进行解析,确定所述语音针对的对象名以及与所述对象名对应的对象ID;
存储模块,用于将所述对象名和所述对象ID添加到所述语音交互设备的联系人信息中;以及
下发模块,用于向所述语音交互设备下发所确定的对象ID,以便所述语音交互设备基于所述对象ID向对应的设备发送通话请求。
29.一种语音交互设备,其特征在于,包括:
第一接收模块,用于接收语音;
上传模块,用于向第一服务器上传所述语音;
第二接收模块,用于接收所述第一服务器下发的对象ID,所述对象ID为由所述第一服务器基于所述语音交互设备的联系人信息确定的与所述语音针对的对象名相对应的对象ID,其中,所述联系人信息包括至少一个对象名和与所述对象名对应的对象ID;以及
发送模块,用于基于所述对象ID向对应的设备发送通话请求。
30.一种语音交互设备,其特征在于,包括:
第一接收模块,用于接收语音;
上传模块,用于向向第一服务器上传所述语音;
第二接收模块,用于接收所述第一服务器下发的对象ID,所述对象ID为由所述第一服务器对所述语音进行解析得到的;以及
发送模块,用于基于所述对象ID向对应的设备发送通话请求。
31.一种语音交互设备,其特征在于,包括:
接收模块,用于接收语音;
解析模块,用于对所述语音进行解析,确定所述语音针对的对象名以及与所述对象名对应的对象ID;
存储模块,用于将所述对象名和所述对象ID添加到所述语音交互设备的联系人信息中;以及
发送模块,用于基于所述对象ID向对应的设备发送通话请求。
32.一种语音交互设备,其特征在于,包括:
接收模块,用于接收语音;
解析模块,用于对所述语音进行解析,确定所述语音针对的对象名;
确定模块,用于基于联系人信息,确定与所确定的对象名对应的对象ID;以及
发送模块,用于基于所述对象ID向对应的设备发送通话请求。
33.一种基于语音交互设备实现通话的系统,其特征在于,包括:语音交互设备和第一服务器,
所述第一服务器用于维护所述语音交互设备的联系人信息,所述联系人信息包括至少一个对象名和与所述对象名对应的对象ID,
所述第一服务器接收所述语音交互设备上传的语音,确定所述语音针对的对象名,并向所述语音交互设备下发与确定的对象名相对应的对象ID,
所述语音交互设备基于所述对象ID向对应的设备发送通话请求。
34.一种计算设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1至26中任何一项所述的方法。
35.一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1至26中任一项所述的方法。
CN201910750065.0A 2019-08-14 2019-08-14 语音交互设备、基于语音交互设备实现通话的方法及系统 Pending CN112449059A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910750065.0A CN112449059A (zh) 2019-08-14 2019-08-14 语音交互设备、基于语音交互设备实现通话的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910750065.0A CN112449059A (zh) 2019-08-14 2019-08-14 语音交互设备、基于语音交互设备实现通话的方法及系统

Publications (1)

Publication Number Publication Date
CN112449059A true CN112449059A (zh) 2021-03-05

Family

ID=74742148

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910750065.0A Pending CN112449059A (zh) 2019-08-14 2019-08-14 语音交互设备、基于语音交互设备实现通话的方法及系统

Country Status (1)

Country Link
CN (1) CN112449059A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115065666A (zh) * 2022-04-29 2022-09-16 广西东信易通科技有限公司 一种基于Websocket与SIP相结合的隐私号通话实时推流系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107395742A (zh) * 2017-08-16 2017-11-24 歌尔科技有限公司 基于智能音箱的网络通信方法以及智能音箱
CN107770047A (zh) * 2017-10-12 2018-03-06 上海斐讯数据通信技术有限公司 智能音箱、基于智能音箱实现社交功能的系统和方法
CN109274847A (zh) * 2018-11-06 2019-01-25 芋头科技(杭州)有限公司 通话方法和装置、智能语音设备以及控制器和介质
CN109451135A (zh) * 2018-12-07 2019-03-08 北京小米移动软件有限公司 联系人创建方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107395742A (zh) * 2017-08-16 2017-11-24 歌尔科技有限公司 基于智能音箱的网络通信方法以及智能音箱
CN107770047A (zh) * 2017-10-12 2018-03-06 上海斐讯数据通信技术有限公司 智能音箱、基于智能音箱实现社交功能的系统和方法
CN109274847A (zh) * 2018-11-06 2019-01-25 芋头科技(杭州)有限公司 通话方法和装置、智能语音设备以及控制器和介质
CN109451135A (zh) * 2018-12-07 2019-03-08 北京小米移动软件有限公司 联系人创建方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115065666A (zh) * 2022-04-29 2022-09-16 广西东信易通科技有限公司 一种基于Websocket与SIP相结合的隐私号通话实时推流系统及方法
CN115065666B (zh) * 2022-04-29 2023-12-15 广西东信易通科技有限公司 一种基于Websocket与SIP相结合的隐私号通话实时推流系统及方法

Similar Documents

Publication Publication Date Title
US11979518B2 (en) Handling calls on a shared speech-enabled device
JP7353497B2 (ja) 能動的に対話の開始を提起するためのサーバ側処理方法及びサーバ、並びに能動的に対話の開始が提起できる音声インタラクションシステム
CN103905474A (zh) 一种信息共享方法、终端、服务器及系统
JP6974688B2 (ja) 通信方法、端末、通信会社サーバー及びスマートデバイス
CN102781075A (zh) 一种降低移动终端通话功耗的方法及移动终端
WO2022206704A1 (zh) 一种语音交互方法及电子设备
CN105100352B (zh) 获取联系人信息的方法及装置
CN112449059A (zh) 语音交互设备、基于语音交互设备实现通话的方法及系统
CN105933128A (zh) 一种基于噪音过滤和身份认证的音频会议纪要推送方法
CN113170020A (zh) 在支持语音的共享设备上指示呼入话音呼叫的呼叫方
CN107277284A (zh) 基于VoLTE的语音通话方法和系统、存储装置
US7937102B2 (en) Method of operating a multi-camp mobile communication device while engaged in a call and receiving a dispatch call
CN111028837B (zh) 语音会话方法、语音识别系统及计算机存储介质
CN112911074B (zh) 一种语音通信处理方法、装置、设备和机器可读介质
CN111935348A (zh) 提供通话处理服务的方法和装置
CN116684392A (zh) 电脑和手机的通讯方法、装置、电子设备及存储介质
CN111835920B (zh) 通话处理方法、装置、设备及存储介质
JP2021067951A (ja) 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末
CN106385496A (zh) 用于建立通信连接的方法和装置
CN110138951A (zh) 一种通信方法及通信终端
CN104363334A (zh) 一种通过音频播放设备实时通话的控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210305