CN104717350A - 用户设备及其语音控制方法 - Google Patents

用户设备及其语音控制方法 Download PDF

Info

Publication number
CN104717350A
CN104717350A CN201310690565.2A CN201310690565A CN104717350A CN 104717350 A CN104717350 A CN 104717350A CN 201310690565 A CN201310690565 A CN 201310690565A CN 104717350 A CN104717350 A CN 104717350A
Authority
CN
China
Prior art keywords
input information
speech input
incoming call
vocal print
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310690565.2A
Other languages
English (en)
Inventor
李欣欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201310690565.2A priority Critical patent/CN104717350A/zh
Publication of CN104717350A publication Critical patent/CN104717350A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

本发明实施例公开了一种用户设备及其语音控制方法,所述语音控制方法包括:在收到对方的通话呼入时,用户设备录取本方的语音输入信息;所述用户设备判断所述语音输入信息是否为预设的问候式语音;在判断所述语音输入信息是预设的问候式语音时,接通所述通话呼入。本发明能够有效地完善用户设备的操作性能,改善用户体验并满足用户的需求。

Description

用户设备及其语音控制方法
技术领域
本发明涉及通信技术领域,具体涉及一种用户设备,还涉及该用户设备的语音控制方法。
背景技术
现有技术中,手机、电脑等用户设备收到通话呼入时,一般需要手动操作来接通或者拒接通话呼入。
然而,在很多应用场景下,用户不方便进行手动操作。譬如手部有水分、手部戴有手套、寒冷天气不便动手操作等,或者用户设备不在手边、面临危险境地而没法接触使用用户设备,在这些情况下,都无法进行手动操作。不难理解的是,现有技术需要手动操作用户设备来接通通话呼入等方式缺乏智能化,不能很好地满足用户的需求。
发明内容
本发明实施例主要解决现有技术需要手动操作用户设备而缺乏智能化的技术问题,提供一种用户设备及其语音控制方法,能够有效地完善用户设备的操作性能,改善用户体验并满足用户的需求。
为解决上述技术问题,本发明实施例第一方面提供一种用户设备的语音控制方法,所述语音控制方法包括:在收到对方的通话呼入时,用户设备录取本方的语音输入信息;所述用户设备判断所述语音输入信息是否为预设的问候式语音;在判断所述语音输入信息是预设的问候式语音时,接通所述通话呼入。
结合第一方面,在第一方面的第一种可能的实现方式中,所述用户设备判断所述语音输入信息是否为预设的问候式语音,包括:根据所述语音输入信息从预存储于本地和/或网络端的语义词库查找对应的语义模型;根据所述语义模型判断所述语音输入信息是否为预设的问候式语音。
结合第一方面或第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述语音控制方法还包括:在判断所述语音输入信息不是预设的问候式语音时,拒接所述通话呼入。
结合第一方面或第一方面的第一种可能的实现方式,在第一方面的第三种可能的实现方式中,在所述用户设备判断所述语音输入信息是否为预设的问候式语音之前之后,所述语音控制方法还包括:将所述语音输入信息的声纹特征与预存储于本地和/或网络端的声纹特征库进行匹配;在所述语音输入信息的声纹特征与声纹特征库内的预设声纹相匹配时,执行判断所述语音输入信息是否为预设的问候式语音的步骤。
结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,在所述将所述语音输入信息的声纹特征与预存储于本地和/或网络端的声纹特征库进行匹配之后,所述语音控制方法还包括:在所述语音输入信息的声纹特征与声纹特征库内的预设声纹不匹配时,保持通话呼入状态或提示本方无权限进行操作。
结合第一方面或第一方面的第一种可能的实现方式,在第一方面的第五种可能的实现方式中,在所述用户设备判断所述语音输入信息是否为预设的问候式语音之前,所述语音控制方法还包括:获取所述语音输入信息中的语音特征向量;利用存储于本地和/或网络端的声学模型和/或语言模型对所述语音特征向量进行识别以提取用于指代对方名称的文本信息,并从本地查找与所述通话呼入相对应的预存储名称;判断所述对方名称与所述查找出的预存储名称是否匹配;在判断所述对方名称与所述查找出的预存储名称相匹配时,执行所述用户设备判断所述语音输入信息是否为预设的问候式语音的步骤。
结合第一方面的第五种可能的实现方式,在第一方面的第六种可能的实现方式中,在所述判断所述对方名称与所述预存储名称是否匹配之后,所述语音控制方法还包括:在判断所述对方名称与所述查找出的预存储名称不匹配时,提示本方名称错误或拒接所述通话呼入。
结合第一方面或第一方面的第一种至第六种任一种可能的实现方式,在第一方面的第七种可能的实现方式中,在所述接通所述通话呼入之后,所述语音控制方法还包括:将所述语音输入信息发送给所述通话呼入的对方。
为解决上述技术问题,本发明实施例第二方面提供一种用户设备,所述用户设备包括:录取模块,用于在收到对方的通话呼入时,录取本方的语音输入信息;判断模块,用于判断所述录取模块录取的所述语音输入信息是否为预设的问候式语音;呼入处理模块,用于在所述判断模块判断所述语音输入信息是预设的问候式语音时,接通所述通话呼入。
结合第二方面,在第二方面的第一种可能的实现方式中,所述判断模块包括:查找单元,用于根据所述录取模块录取的所述语音输入信息从预存储于本地和/或网络端的语义词库查找对应的语义模型;判断单元,用于根据所述查找单元查找的所述语义模型判断所述语音输入信息是否为预设的问候式语音。
结合第二方面或第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,所述呼入处理模块,还用于在所述判断模块判断所述语音输入信息为预设的委婉式语音时,拒接所述通话呼入。
结合第二方面或第二方面的第一种可能的实现方式,在第二方面的第三种可能的实现方式中,所述用户设备还包括:匹配模块,用于在所述判断模块判断所述语音输入信息是否为预设的问候式语音之前,将所述语音输入信息的声纹特征与预存储于本地和/或网络端的声纹特征库进行匹配。其中,所述判断模块在所述匹配模块确认所述语音输入信息的声纹特征与声纹特征库内的预设声纹相匹配时,判断所述语音输入信息是否为预设的问候式语音。
结合第二方面的第三种可能的实现方式,在第二方面的第四种可能的实现方式中,所述呼入处理模块,还用于在所述匹配模块确认所述语音输入信息的声纹特征与声纹特征库内的预设声纹不匹配时,保持通话呼入状态或提示本方无权限进行操作。
结合第二方面或第二方面的第一种可能的实现方式,在第二方面的第五种可能的实现方式中,所述用户设备还包括:获取模块,用于在所述判断模块判断所述语音输入信息是否为预设的问候式语音之前,获取所述语音输入信息中的语音特征向量;提取模块,用于利用存储于本地和/或网络端的声学模型和/或语言模型对所述获取模块获取的所述语音特征向量进行识别以提取用于指代对方名称的文本信息,并从本地查找与所述通话呼入相对应的预存储名称;匹配模块,用于判断所述提取模块提取的所述对方名称与所述预存储名称是否匹配。其中,所述判断模块在所述匹配模块判断所述对方名称与所述预存储名称相匹配时,判断所述语音输入信息是否为预设的问候式语音。
结合第二方面的第五种可能的实现方式,在第二方面的第六种可能的实现方式中,所述呼入处理模块,还用于在所述匹配模块判断所述对方名称与所述预存储名称不匹配时,提示本方名称错误或拒接所述通话呼入。
结合第二方面或第二方面的第一种至第六种任一种可能的实现方式,在第二方面的第七种可能的实现方式中,所述用户设备还包括:发送模块,用于在所述呼入处理模块接通所述通话呼入时,将所述语音输入信息发送给所述通话呼入的对方。
本发明实施例的有益效果是:区别于现有技术的情况,本发明通过录取语音输入信息进行通话操作的方式,能够在很多应用场景下,譬如手部有水分、手部戴有手套、寒冷天气不便动手操作等,或者用户设备不在手边、面临危险境地而没法接触使用用户设备时进行语音控制。本发明实施例使用户设备更加智能化,有效地完善用户设备的操作性能,改善用户体验并满足用户的需求。
附图说明
图1是本发明实施例提供的用户设备语音控制方法的第一实施例流程示意图;
图2是本发明实施例提供的用户设备语音控制方法的第二实施例流程示意图;
图3是本发明实施例提供的用户设备语音控制方法的第三实施例流程示意图;
图4是本发明实施例提供的用户设备第一实施例的结构框图;
图5是图4所示用户设备的判断模块一具体实施例的结构框图;
图6是本发明实施例提供的用户设备第二实施例的结构框图;
图7是本发明实施例提供的用户设备第三实施例的结构框图;
图8是本发明实施例提供的用户设备第四实施例的结构框图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本发明。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
本文中描述的技术可用于各种通信系统,例如当前2G,3G通信系统和下一代通信系统,例如全球移动通信系统(GSM,Global System forMobile communications),码分多址(CDMA,Code Division MultipleAccess)系统,时分多址(TDMA,Time Division Multiple Access)系统,宽带码分多址(WCDMA,Wideband Code Division Multiple AccessWireless),频分多址(FDMA,Frequency Division Multiple Addressing)系统,正交频分多址(OFDMA,Orthogonal Frequency-Division MultipleAccess)系统,单载波FDMA(SC-FDMA)系统,通用分组无线业务(GPRS,General Packet Radio Service)系统,长期演进(LTE,Long TermEvolution)系统,以及其他此类通信系统。
用户设备,可以是无线终端也可以是有线终端,无线终端可以是指向用户提供语音和/或数据连通性的设备,具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。无线终端可以经无线接入网(例如,RAN,Radio Access Network)与一个或多个核心网进行通信,无线终端可以是移动终端,如移动电话(或称为“蜂窝”电话,手机)和具有移动终端的计算机,例如,可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置,它们与无线接入网交换语言和/或数据。例如,个人通信业务(PCS,Personal Communication Service)电话、无绳电话、会话发起协议(SIP)话机、无线本地环路(WLL,WirelessLocal Loop)站、个人数字助理(PDA,Personal Digital Assistant)等设备。无线终端也可以称为系统、订户单元(Subscriber Unit)、订户站(Subscriber Station),移动站(Mobile Station)、移动台(Mobile)、远程站(Remote Station)、接入点(Access Point)、远程终端(RemoteTerminal)、接入终端(Access Terminal)、用户终端(User Terminal)、用户代理(User Agent)、用户设备(User Device)、或用户装备(UserEquipment)。
另外,本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
请参阅图1,图1是本发明实施例提供的用户设备语音控制方法的第一实施例流程示意图,本实施例语音控制方法包括但不限于以下几个步骤。
步骤S101,在收到对方的通话呼入时,用户设备录取本方的语音输入信息。
在步骤S101中,为了自动/智能实现语音控制以录取语音输入信息,用户设备可以判断是否开启了“语音控制功能”,也可以在通话呼入时自动触发并录取语音输入信息,当然,也可以根据用户在预定时间段内未进行任何操作而启动“语音控制功能”进行录取语音输入信息等,在本技术领域人员容易理解的范围内,不作细述。不难看出,本实施例可以在很多应用场景下,譬如手部有水分、手部戴有手套、寒冷天气不便动手操作等,或者用户设备不在手边、面临危险境地而没法接触使用用户设备时自动/智能地启动“语音控制功能”,以对通话呼入进行操作。
值得注意的是,在其他实施例中,本发明的语音控制方法还可以在非通话呼入状态下进行语音控制。譬如用户在需要通话呼出、短信息发送或者邮件发送等情况下进行语音控制,这个过程中,用户可以通过预先设定的特定语音输入信息来“启动”通话呼出功能、短信息发送功能或者邮件发送功能,接着通过语音进行输入和发送等操作,在此不作限定。
步骤S102,判断语音输入信息是否为预设的问候式语音,在判断为预设的问候式语音时执行步骤S103',在判断不为预设的问候式语音时则执行步骤S103''。
在步骤S102中,用户设备需要预先设置或存储语义模型,以根据语义模型判断语音输入信息的语义。具体而言,用户可以根据应用场景和场景动作,进行学习并训练语义模型,接着将语义模型预存储于本地和/或网络端;接着步骤S102可以根据语音输入信息从预存储于本地和/或网络端的语义词库查找对应的语义模型,根据语义模型判断语音输入信息是否为预设的问候式语音。其中,本实施例可以采用“云识别”等技术进行语义判断,以提高识别准确率。
举例而言,预设的问候式语音可以包括“你好”、“嗨”、“hello”、“晚上好”、“早上好”和“很高兴接到你的电话”等表示问候式(或示好式)的语音段,当然,还可以具体包括对方的称呼、昵称或其他语音段,在此不作限定。其中,用户不需要记忆和学习用户设备内规定的语音指令,而可以根据个人习惯对语义模型进行个性化设置,实现自然语境、语义的生成和匹配,提高了智能度。
此外,非预设的问候式语音可以包括委婉式语音,譬如包括“抱歉”、“不好意思”、“我很忙”“我待会给你回复”和“现在不方便接电话”等表示歉意的语音段;在其他实施例中,非预设的问候式语音还可以根据声音的分贝大小进行判断,譬如高于80分贝,表示用户不开心、生气等情绪,此时也可以表示拒接等。
需要说明的是,在特殊的情况下,无论是通话呼入或呼出,如果录取到类似于“救命”、“着火啦”和“help”等特殊语音,则可以直接接通通话呼入或者对特定的号码进行通话呼出,譬如直接拨打“110”、“120”以及“122”等,在此不作细述。
步骤S103',接通通话呼入,并将语音输入信息发送给通话呼入的对方。
在步骤S103'中,用户设备在根据预设的语义模型对语音输入信息进行识别后,进一步判断用户的意图动作,而执行步骤S103'中的接通通话呼入,需要说明的是,用户设备可以建立语义模型与用户意图的用户指令库,以根据识别出的语义查找对应的用户指令,最终执行相应的操作,在此不作细述。其中,为了使通话更加温馨而不至于太生硬,本实施例可以将录取的语音输入信息在接通通话时同时发送给对方,而使得对方在接通的时候能听到类似于“你好,xxx”的问候语。需要说明的是,在其他实施例中,也可以不发送录取的语音输入信息,在此不作限定。
步骤S103'',拒接通话呼入。
值得一提的是,在拒接通话呼入后,本实施例也可以将语音输入信息以邮件、视频或者短信息的方式发送给通话呼入的对方,而避免直接拒接所引起的纠纷、误会等麻烦,在此不作细述。
需要说明的是,在通话呼入的过程中,用户随时可以进行手动操作而取代语音控制的方式,本实施例实现了手动操作和语音控制的自动切换功能。同理,本实施例无需限定特定的应用场景(譬如检测到环境温度过低)才能启动使用语音控制,用户可以根据个人习惯或需要而设定使用语音控制,使得用户设备的语音控制更具实用性、使用范围更广。
本发明实施例使用户设备更加智能化,有效地完善用户设备的操作性能,改善用户体验并满足用户的需求。
请参阅图2,图2是本发明实施例提供的用户设备语音控制方法的第二实施例流程示意图,本实施例语音控制方法包括但不限于以下几个步骤。
步骤S201,在收到对方的通话呼入时,用户设备录取本方的语音输入信息。
其中,本实施例步骤S201请参阅前面实施例步骤S101的相关描述,在本技术领域人员容易结合理解的范围内,不作赘述。
步骤S202,将语音输入信息的声纹特征与声纹特征库进行匹配,在判断语音输入信息的声纹特征与声纹特征库内的预设声纹相匹配时,执行步骤S203,而在判断语音输入信息的声纹特征与声纹特征库内的预设声纹不匹配时,保持通话呼入状态、提示本方无权限进行操作或终止流程。
在步骤S202中,为了实现特定的用户使用语音控制的功能,本实施例可以预先提取特定的用户的声纹特征,接着预存储到本地和/或网络端的声纹特征库中;当需要进行语音控制时,用户设备将语音输入信息的声纹特征与预存储于本地和/或网络端的声纹特征库进行匹配。
需要说明的是,在其他实施例中,在判断语音输入信息的声纹特征与声纹特征库内的预设声纹相匹配时,也可以直接执行步骤S204',而在不匹配时则执行S204'',在此不作限定。
步骤S203,判断语音输入信息是否为预设的问候式语音,在判断为预设的问候式语音时执行步骤S204',在判断不为预设的问候式语音时则执行步骤S204''。
步骤S204',接通通话呼入,并将语音输入信息发送给通话呼入的对方。
步骤S204'',拒接通话呼入。
本实施例的步骤S203、步骤S204'和步骤S204''的具体实现过程还请参阅前面实施例对应的步骤S102、步骤S103'和步骤S103''的相关描述,在本技术领域人员容易结合理解的范围内,不作赘述。
值得一提的是,在拒接通话呼入后,本实施例也可以将语音输入信息以邮件、视频或者短信息的方式发送给通话呼入的对方,而避免直接拒接所引起的纠纷、误会等麻烦,在此不作细述。
需要说明的是,在通话呼入的过程中,用户随时可以进行手动操作而取代语音控制的方式,本实施例实现了手动操作和语音控制的自动切换功能。
相对于前面实施例而言,本实施例在可进行语言控制的基础上,进一步针对语言控制的权限进行限定,在实现用户设备智能化的同时,提高了安全性能,避免非用户设备的持有者有意/无意对用户设备进行误操作,从而避免不必要的麻烦。
请参阅图3,图3是本发明实施例提供的用户设备语音控制方法的第三实施例流程示意图,本实施例语音控制方法包括但不限于以下几个步骤。
步骤S301,在收到对方的通话呼入时,用户设备录取本方的语音输入信息。
本实施例步骤S301请参阅前面实施例步骤S101的相关描述,在此不作赘述。
步骤S302,获取语音输入信息中的语音特征向量。
在步骤S302中,还可以预先对语音输入信息进行端点检测、去除多余的静音和非用户式语音(譬如机器发音、混杂噪音等);接着,对语音输入信息进行降噪及特征分析等,以获取语音特征向量。其中,在本技术领域人员理解的范围内,不对其具体实现过程进行描述和限定。
步骤S303,利用存储于本地和/或网络端的声学模型和/或语言模型对语音特征向量进行识别以提取用于指代对方名称的文本信息,并从本地查找与通话呼入相对应的预存储名称。
在步骤S303中,用户设备可以智能地识别提取到常用的名称字符段的文本信息,譬如“李xx”、“小张”、“Green”等表示名称的文本信息。需要说明的是,如果通话呼入的号码等未预先存储于本地的通讯录等,可以默认为匹配或者不匹配进行处理,用户可以自行设定,在此不作限定。
步骤S304,判断对方名称与预存储名称是否匹配,在判断对方名称与预存储名称相匹配时执行步骤S305,在判断对方名称与预存储名称不匹配时提示本方名称错误、拒接通话呼入或保持通话呼入。
步骤S305,判断语音输入信息是否为预设的问候式语音,在判断为预设的问候式语音时执行步骤S306',在判断不为预设的问候式语音时则执行步骤S306''。
步骤S306',接通通话呼入,并将语音输入信息发送给通话呼入的对方。
步骤S306'',拒接通话呼入。
本实施例的步骤S305、步骤S306'和步骤S306''的具体实现过程还请参阅前面实施例对应的步骤S102、步骤S103'和步骤S103''的相关描述,在本技术领域人员容易结合理解的范围内,不作赘述。
值得一提的是,在拒接通话呼入后,本实施例也可以将语音输入信息以邮件、视频或者短信息的方式发送给通话呼入的对方,而避免直接拒接所引起的纠纷、误会等麻烦,在此不作细述。
需要说明的是,在通话呼入的过程中,用户随时可以进行手动操作而取代语音控制的方式,本实施例实现了手动操作和语音控制的自动切换功能。
本实施例通过对通话呼入的对方名称进行判断,可以防止用户误判到错误的对方,譬如在一般情况下,用户约好小张在时间段A去开会,而在时间段A由于用户忙而没法看用户设备,此时按直觉去称呼“小张”可能就出现尴尬;或者用户已到目的地,而觉得无需接通,而拒接了来自重要客户、人物的紧急电话,发生不必要的麻烦。本实施例进一步提高了语音控制的智能化,防止不必要的错误发生,改善用户体验。
请结合前面实施例参阅图4,图4是本发明实施例提供的用户设备第一实施例的结构框图,本实施例用户设备包括但不限于录取模块41、判断模块42、呼入处理模块43和发送模块44。
需要说明的是,本实施例的用户设备可以为手机、平板电脑、笔记本电脑或台式电脑等,其中,可以在平板电脑、笔记本电脑或台式电脑等安装预定的通话软件,在此不作细述。
在本实施例中,录取模块41用于在收到对方的通话呼入时,录取本方的语音输入信息。
为了自动/智能实现语音控制以录取语音输入信息,录取模块41可以判断是否开启了“语音控制功能”,也可以在通话呼入时自动触发并录取语音输入信息,当然,也可以根据用户在预定时间段内未进行任何操作而启动“语音控制功能”而录取模块41进行录取语音输入信息等,在本技术领域人员容易理解的范围内,不作细述。不难看出,本实施例可以在很多应用场景下,譬如手部有水分、手部戴有手套、寒冷天气不便动手操作等,或者用户设备不在手边、面临危险境地而没法接触使用用户设备时自动/智能地启动“语音控制功能”,以对通话呼入进行操作。
值得注意的是,在其他实施例中,本实施例录取模块41还可以在非通话呼入状态下进行语音控制。譬如用户在需要通话呼出、短信息发送或者邮件发送等情况下进行语音控制,这个过程中,用户可以通过预先设定的特定语音输入信息来“启动”通话呼出功能、短信息发送功能或者邮件发送功能,接着通过语音进行输入和发送等操作,在此不作限定。
判断模块42用于判断录取模块41录取的语音输入信息是否为预设的问候式语音。
用户设备需要预先设置或存储语义模型,以使得判断模块42根据语义模型判断语音输入信息的语义。具体而言,用户可以根据应用场景和场景动作,进行学习并训练语义模型,接着将语义模型预存储于本地和/或网络端;接着判断模块42可以根据语音输入信息从预存储于本地和/或网络端的语义词库查找对应的语义模型,根据语义模型判断语音输入信息是否为预设的问候式语音。如图5所示,本实施例判断模块42具体可以包括查找单元421和判断单元422。其中,查找单元421用于根据录取模块41录取的语音输入信息从预存储于本地和/或网络端的语义词库查找对应的语义模型;接着,判断单元422,用于根据查找单元421查找的语义模型判断语音输入信息是否为预设的问候式语音。其中,本实施例判断模块42可以采用“云识别”等技术进行语义判断,以提高识别准确率。
举例而言,预设的问候式语音可以包括“你好”、“嗨”、“hello”、“晚上好”、“早上好”和“很高兴接到你的电话”等表示问候式(或示好式)的语音段,当然,还可以具体包括对方的称呼、昵称或其他语音段,在此不作限定。其中,用户不需要记忆和学习用户设备内规定的语音指令,而可以根据个人习惯对语义模型进行个性化设置,实现自然语境、语义的生成和匹配,提高了智能度。
此外,非预设的问候式语音可以包括委婉式语音,譬如包括“抱歉”、“不好意思”、“我很忙”“我待会给你回复”和“现在不方便接电话”等表示歉意的语音段;在其他实施例中,非预设的问候式语音还可以根据声音的分贝大小进行判断,譬如高于80分贝,表示用户不开心、生气等情绪,此时也可以表示拒接等。此时,呼入处理模块43在判断模块42判断语音输入信息为预设的委婉式语音时,拒接通话呼入。
需要说明的是,在特殊的情况下,无论是通话呼入或呼出,如果判断模块42判断类似于“救命”、“着火啦”和“help”等特殊语音,则可以直接接通通话呼入或者对特定的号码进行通话呼出,譬如直接拨打“110”、“120”以及“122”等,在此不作细述。
呼入处理模块43用于在判断模块42判断语音输入信息为预设的问候式语音时,接通通话呼入;且发送模块44在呼入处理模块43接通通话呼入时,将语音输入信息发送给通话呼入的对方。此外,呼入处理模块43在判断模块42判断语音输入信息不为预设的问候式语音时,可以拒接通话呼入。
具体而言,呼入处理模块43在根据预设的语义模型对语音输入信息进行识别后,进一步判断用户的意图动作,而接通或拒接通话呼入,需要说明的是,用户设备可以建立语义模型与用户意图的用户指令库,以根据识别出的语义查找对应的用户指令,最终执行相应的操作,在此不作细述。
其中,为了使通话更加温馨而不至于太生硬,本实施例发送模块44可以将录取的语音输入信息在接通通话时同时发送给对方,而使得对方在接通的时候能听到类似于“你好,xxx”的问候语。需要说明的是,在其他实施例中,也可以不发送录取的语音输入信息,在此不作限定。
值得一提的是,在拒接通话呼入后,本实施例发送模块44也可以将语音输入信息以邮件、视频或者短信息的方式发送给通话呼入的对方,而避免直接拒接所引起的纠纷、误会等麻烦,在此不作细述。
需要说明的是,在通话呼入的过程中,用户随时可以进行手动操作而取代语音控制的方式,本实施例实现了手动操作和语音控制的自动切换功能。同理,本实施例无需限定特定的应用场景(譬如检测到环境温度过低)才能启动使用语音控制,用户可以根据个人习惯或需要而设定使用语音控制,使得用户设备的语音控制更具实用性、使用范围更广。
本发明实施例使用户设备更加智能化,有效地完善用户设备的操作性能,改善用户体验并满足用户的需求。
请参阅图6,图6是本发明实施例提供的用户设备第二实施例的结构框图,相对于图4而言,本实施例用户设备还可以包括匹配模块51。
在本实施例中,匹配模块51用于在判断模块42判断语音输入信息是否为预设的问候式语音之前,将语音输入信息的声纹特征与预存储于本地和/或网络端的声纹特征库进行匹配。其中,判断模块42在匹配模块51确认语音输入信息的声纹特征与声纹特征库内的预设声纹相匹配时,判断语音输入信息是否为预设的问候式语音。
其中,呼入处理模块43在匹配模块51确认语音输入信息的声纹特征与声纹特征库内的预设声纹不匹配时,保持通话呼入状态或提示本方无权限进行操作。
不难看出,本实施例为了实现特定的用户使用语音控制的功能,可以预先提取特定的用户的声纹特征,接着预存储到本地和/或网络端的声纹特征库中;当需要进行语音控制时,用户设备将语音输入信息的声纹特征与预存储于本地和/或网络端的声纹特征库进行匹配。
需要说明的是,在其他实施例中,在判断语音输入信息的声纹特征与声纹特征库内的预设声纹相匹配时,也可以直接接通通话呼入,而在不匹配时则拒接通话呼入,在此不作限定。
相对于前面实施例而言,本实施例在可进行语言控制的基础上,进一步针对语言控制的权限进行限定,在实现用户设备智能化的同时,提高了安全性能,避免非用户设备的持有者有意/无意对用户设备进行误操作,从而避免不必要的麻烦。
请参阅图7,图7是本发明实施例提供的用户设备第三实施例的结构框图,相对于图4和图6而言,本实施例用户设备还可以包括获取模块61和提取模块62。
在本实施例中,获取模块61用于在判断模块42判断语音输入信息是否为预设的问候式语音之前,获取语音输入信息中的语音特征向量。具体而言,获取模块61可以预先对语音输入信息进行端点检测、去除多余的静音和非用户式语音(譬如机器发音、混杂噪音等);接着,对语音输入信息进行降噪及特征分析等,以获取语音特征向量。其中,在本技术领域人员理解的范围内,不对其具体实现过程进行描述和限定。
提取模块62用于利用存储于本地和/或网络端的声学模型和/或语言模型对获取模块61获取的语音特征向量进行识别以提取用于指代对方名称的文本信息,并从本地查找与通话呼入相对应的预存储名称。提取模块62可以智能地识别提取到常用的名称字符段的文本信息,譬如“李xx”、“小张”、“Green”等表示名称的文本信息。需要说明的是,如果通话呼入的号码等未预先存储于本地的通讯录等,可以默认为匹配或者不匹配进行处理,用户可以自行设定,在此不作限定。
匹配模块51用于判断提取模块62提取的对方名称与预存储名称是否匹配,其中,匹配模块51可以采用模糊匹配的方式,在此不作限定。
判断模块42在匹配模块51判断对方名称与预存储名称相匹配时,判断语音输入信息是否为预设的问候式语音;呼入处理模块43在匹配模块51判断对方名称与预存储名称不匹配时,提示本方名称错误或拒接通话呼入。
值得一提的是,在拒接通话呼入后,本实施例也可以将语音输入信息以邮件、视频或者短信息的方式发送给通话呼入的对方,而避免直接拒接所引起的纠纷、误会等麻烦,在此不作细述。
需要说明的是,在通话呼入的过程中,用户随时可以进行手动操作而取代语音控制的方式,本实施例实现了手动操作和语音控制的自动切换功能。
本实施例通过对通话呼入的对方名称进行判断,可以防止用户误判到错误的对方,譬如在一般情况下,用户约好小张在时间段A去开会,而在时间段A由于用户忙而没法看用户设备,此时按直觉去称呼“小张”可能就出现尴尬;或者用户已到目的地,而觉得无需接通,而拒接了来自重要客户、人物的紧急电话,发生不必要的麻烦。本实施例进一步提高了语音控制的智能化,防止不必要的错误发生,改善用户体验。
请参阅图8,图8是本发明实施例提供的用户设备第四实施例的结构框图。用户设备包括处理器(processer)51、存储器(memory)52、总线53以及通信接口(communication interface)54。其中,处理器51,存储器52和通信接口54通过总线53相互连接。通信接口54用于与其它设备建立通信连接,通信接口54可以是物理的或逻辑的接口。
总线53可以是外设部件互连标准(英文:Peripheral ComponentInterconnect,缩写:PCI)总线或扩展工业标准结构(英文:ExtendedIndustry Standard Architecture,缩写:EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器52用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器52可能包含高速随机存取存储器(英文:random-access memory,缩写:RAM)存储器,也可能还包括非易失性存储器(英文:non-volatile memory,缩写:NVM),例如至少一个磁盘存储器。
处理器51可能是一个中央处理器(英文:central processing unit,缩写:CPU)。
处理器51执行存储器52所存放的程序,用于实现本发明实施例提供的语音控制方法,包括:
在收到对方的通话呼入时,录取本方的语音输入信息;
判断语音输入信息是否为预设的问候式语音;
在判断语音输入信息为预设的问候式语音时,接通通话呼入。
可选地,判断语音输入信息是否为预设的问候式语音的步骤包括:根据语音输入信息从预存储于本地和/或网络端的语义词库查找对应的语义模型;根据语义模型判断语音输入信息是否为预设的问候式语音。
可选地,在判断语音输入信息为预设的问候式语音时,接通通话呼入的步骤之后,处理器51还执行:在判断语音输入信息为预设的委婉式语音时,拒接通话呼入。
可选地,在判断语音输入信息是否为预设的问候式语音的步骤之前,处理器51还执行:将语音输入信息的声纹特征与预存储于本地和/或网络端的声纹特征库进行匹配;在语音输入信息的声纹特征与声纹特征库内的预设声纹相匹配时,执行判断语音输入信息是否为预设的问候式语音的步骤,或者在语音输入信息的声纹特征与声纹特征库内的预设声纹不匹配时,保持通话呼入状态或提示本方无权限进行操作。
可选地,在判断语音输入信息是否为预设的问候式语音的步骤之前,处理器51还执行:获取语音输入信息中的语音特征向量;利用存储于本地和/或网络端的声学模型和/或语言模型对语音特征向量进行识别以提取用于指代对方名称的文本信息,并从本地查找与通话呼入相对应的预存储名称;判断对方名称与查找出的预存储名称是否匹配;在判断对方名称与查找出的预存储名称相匹配时,执行判断语音输入信息是否为预设的问候式语音的步骤,或者在判断对方名称与查找出的预存储名称不匹配时,提示本方名称错误或拒接通话呼入。
可选地,在接通通话呼入之后,处理器51还执行:将语音输入信息发送给通话呼入的对方。
处理器51的具体执行过程请参照前述实施例的语音控制方法和用户设备,此处不再细述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (16)

1.一种用户设备的语音控制方法,其特征在于,所述语音控制方法包括:
在收到对方的通话呼入时,用户设备录取本方的语音输入信息;
所述用户设备判断所述语音输入信息是否为预设的问候式语音;
在判断所述语音输入信息是预设的问候式语音时,接通所述通话呼入。
2.根据权利要求1所述的语音控制方法,其特征在于,所述用户设备判断所述语音输入信息是否为预设的问候式语音,包括:
根据所述语音输入信息从预存储于本地和/或网络端的语义词库查找对应的语义模型;
根据所述语义模型判断所述语音输入信息是否为预设的问候式语音。
3.根据权利要求1或2所述的语音控制方法,其特征在于,所述语音控制方法还包括:
在判断所述语音输入信息不是预设的问候式语音时,拒接所述通话呼入。
4.根据权利要求1或2所述的语音控制方法,其特征在于,在所述用户设备判断所述语音输入信息是否为预设的问候式语音之前,所述语音控制方法还包括:
将所述语音输入信息的声纹特征与预存储于本地和/或网络端的声纹特征库进行匹配;
在所述语音输入信息的声纹特征与声纹特征库内的预设声纹相匹配时,执行判断所述语音输入信息是否为预设的问候式语音的步骤。
5.根据权利要求4所述的语音控制方法,其特征在于,在所述将所述语音输入信息的声纹特征与预存储于本地和/或网络端的声纹特征库进行匹配之后,所述语音控制方法还包括:
在所述语音输入信息的声纹特征与声纹特征库内的预设声纹不匹配时,保持通话呼入状态或提示本方无权限进行操作。
6.根据权利要求1或2所述的语音控制方法,其特征在于,在所述用户设备判断所述语音输入信息是否为预设的问候式语音之前,所述语音控制方法还包括:
获取所述语音输入信息中的语音特征向量;
利用存储于本地和/或网络端的声学模型和/或语言模型对所述语音特征向量进行识别以提取用于指代对方名称的文本信息,并从本地查找与所述通话呼入相对应的预存储名称;
判断所述对方名称与所述查找出的预存储名称是否匹配;
在判断所述对方名称与所述查找出的预存储名称相匹配时,执行所述用户设备判断所述语音输入信息是否为预设的问候式语音的步骤。
7.根据权利要求6所述的语音控制方法,其特征在于,在所述判断所述对方名称与所述预存储名称是否匹配之后,所述语音控制方法还包括:
在判断所述对方名称与所述查找出的预存储名称不匹配时,提示本方名称错误或拒接所述通话呼入。
8.根据权利要求1-7任一所述的语音控制方法,其特征在于,在所述接通所述通话呼入之后,所述语音控制方法还包括:
将所述语音输入信息发送给所述通话呼入的对方。
9.一种用户设备,其特征在于,所述用户设备包括:
录取模块,用于在收到对方的通话呼入时,录取本方的语音输入信息;
判断模块,用于判断所述录取模块录取的所述语音输入信息是否为预设的问候式语音;
呼入处理模块,用于在所述判断模块判断所述语音输入信息是预设的问候式语音时,接通所述通话呼入。
10.根据权利要求9所述的用户设备,其特征在于,所述判断模块包括:
查找单元,用于根据所述录取模块录取的所述语音输入信息从预存储于本地和/或网络端的语义词库查找对应的语义模型;
判断单元,用于根据所述查找单元查找的所述语义模型判断所述语音输入信息是否为预设的问候式语音。
11.根据权利要求9或10所述的用户设备,其特征在于,所述呼入处理模块,还用于在所述判断模块判断所述语音输入信息不是预设的问候式语音时,拒接所述通话呼入。
12.根据权利要求9或10所述的用户设备,其特征在于,所述用户设备还包括:
匹配模块,用于在所述判断模块判断所述语音输入信息是否为预设的问候式语音之前,将所述语音输入信息的声纹特征与预存储于本地和/或网络端的声纹特征库进行匹配;
其中,所述判断模块在所述匹配模块确认所述语音输入信息的声纹特征与声纹特征库内的预设声纹相匹配时,判断所述语音输入信息是否为预设的问候式语音。
13.根据权利要求12所述的用户设备,其特征在于,所述呼入处理模块,还用于在所述匹配模块确认所述语音输入信息的声纹特征与声纹特征库内的预设声纹不匹配时,保持通话呼入状态或提示本方无权限进行操作。
14.根据权利要求9或10所述的用户设备,其特征在于,所述用户设备还包括:
获取模块,用于在所述判断模块判断所述语音输入信息是否为预设的问候式语音之前,获取所述语音输入信息中的语音特征向量;
提取模块,用于利用存储于本地和/或网络端的声学模型和/或语言模型对所述获取模块获取的所述语音特征向量进行识别以提取用于指代对方名称的文本信息,并从本地查找与所述通话呼入相对应的预存储名称;
匹配模块,用于判断所述提取模块提取的所述对方名称与所述预存储名称是否匹配;
其中,所述判断模块在所述匹配模块判断所述对方名称与所述预存储名称相匹配时,判断所述语音输入信息是否为预设的问候式语音。
15.根据权利要求14所述的用户设备,其特征在于,所述呼入处理模块,还用于在所述匹配模块判断所述对方名称与所述预存储名称不匹配时,提示本方名称错误或拒接所述通话呼入。
16.根据权利要求9-15任一所述的用户设备,其特征在于,所述用户设备还包括:
发送模块,用于在所述呼入处理模块接通所述通话呼入时,将所述语音输入信息发送给所述通话呼入的对方。
CN201310690565.2A 2013-12-16 2013-12-16 用户设备及其语音控制方法 Pending CN104717350A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310690565.2A CN104717350A (zh) 2013-12-16 2013-12-16 用户设备及其语音控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310690565.2A CN104717350A (zh) 2013-12-16 2013-12-16 用户设备及其语音控制方法

Publications (1)

Publication Number Publication Date
CN104717350A true CN104717350A (zh) 2015-06-17

Family

ID=53416287

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310690565.2A Pending CN104717350A (zh) 2013-12-16 2013-12-16 用户设备及其语音控制方法

Country Status (1)

Country Link
CN (1) CN104717350A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718781A (zh) * 2016-02-23 2016-06-29 惠州Tcl移动通信有限公司 基于声纹识别的操作终端设备的方法及终端设备
CN108877146A (zh) * 2018-09-03 2018-11-23 深圳市尼欧科技有限公司 一种基于智能语音识别的乘驾安全自动报警装置及其方法
CN109259800A (zh) * 2018-10-26 2019-01-25 深圳开立生物医疗科技股份有限公司 超声成像控制系统
CN109920429A (zh) * 2017-12-13 2019-06-21 上海擎感智能科技有限公司 一种用于车载的语音识别数据处理方法及系统
CN110364178A (zh) * 2019-07-22 2019-10-22 出门问问(苏州)信息科技有限公司 一种语音处理方法、装置、存储介质和电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101296456A (zh) * 2008-05-28 2008-10-29 德信无线通讯科技(北京)有限公司 具有虚拟引导式通话功能的移动通话终端及其通话方法
CN102215297A (zh) * 2011-06-07 2011-10-12 鸿富锦精密工业(深圳)有限公司 通信装置及其通信方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101296456A (zh) * 2008-05-28 2008-10-29 德信无线通讯科技(北京)有限公司 具有虚拟引导式通话功能的移动通话终端及其通话方法
CN102215297A (zh) * 2011-06-07 2011-10-12 鸿富锦精密工业(深圳)有限公司 通信装置及其通信方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718781A (zh) * 2016-02-23 2016-06-29 惠州Tcl移动通信有限公司 基于声纹识别的操作终端设备的方法及终端设备
CN109920429A (zh) * 2017-12-13 2019-06-21 上海擎感智能科技有限公司 一种用于车载的语音识别数据处理方法及系统
CN108877146A (zh) * 2018-09-03 2018-11-23 深圳市尼欧科技有限公司 一种基于智能语音识别的乘驾安全自动报警装置及其方法
CN109259800A (zh) * 2018-10-26 2019-01-25 深圳开立生物医疗科技股份有限公司 超声成像控制系统
CN110364178A (zh) * 2019-07-22 2019-10-22 出门问问(苏州)信息科技有限公司 一种语音处理方法、装置、存储介质和电子设备
CN110364178B (zh) * 2019-07-22 2021-09-10 出门问问(苏州)信息科技有限公司 一种语音处理方法、装置、存储介质和电子设备

Similar Documents

Publication Publication Date Title
CN104253899B (zh) 通讯终端的控制方法和装置
CN104717350A (zh) 用户设备及其语音控制方法
WO2016000636A1 (zh) 一种通信处理方法和系统
CN103747132B (zh) 显示消息的方法及终端
CN104854852B (zh) 用于为电话通话的语音到文本转录确定语言的方法和设备
CN103577965B (zh) 一种事务提醒方法和装置
CN105245729B (zh) 移动终端消息阅读方法和装置
CN102238284A (zh) 手机即时通讯方法
CN105812550A (zh) 语音电话防骚扰的方法、语音电话防骚扰的装置及终端
CN102209156A (zh) 一种同步联系人信息的方法、装置和系统
US20170064084A1 (en) Method and Apparatus for Implementing Voice Mailbox
CN102547614B (zh) 一种基于手机的自动提醒方法及手机
CN103813000A (zh) 移动终端及其寻找方法
CN113039758A (zh) 信息自动回复的方法及相关装置
CN106601251A (zh) 通话文本的生成方法及系统
CN101729673A (zh) 一种移动终端铃声、壁纸设置方法和装置
CN102868969A (zh) 具有自动定位功能的移动终端及移动终端自动定位的方法
CN103369492B (zh) 一种基于智能手机提供远程服务的方法和系统
CN101404792A (zh) 一种手机备份短信的方法和系统
CN105554233B (zh) 一种去电提醒方法及终端
CN107371144A (zh) 一种智能发送信息的方法及装置
CN109725798A (zh) 智能角色的切换方法及相关装置
CN105739940A (zh) 存储方法及装置
CN102984679A (zh) 一种呼叫转移和数据操作的方法和终端
CN110445934A (zh) 通话信息处理方法、系统、终端及可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150617

RJ01 Rejection of invention patent application after publication