具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,其示出了本申请的更新欢迎语的方法一实施例的流程图,本实施例的更新欢迎语的方法可以适用于具备智能语音对话功能的终端、如智能语音电视、智能音箱、智能对话玩具、智能车载终端等。
如图1所示,在步骤101中,响应于被用户的唤醒音频成功唤醒,缓存唤醒音频;
在步骤102中,对唤醒音频进行识别以获取用户的当前用户画像,其中,当前用户画像包括用户的基本属性;
在步骤103中,至少将用户的当前用户画像以回调的形式返回给开发者,获取开发者为具有当前用户画像的用户定制的欢迎语文本;
在步骤104中,基于欢迎语文本和用户的基本属性生成欢迎语合成音;
在步骤105中,实时语音播报欢迎语合成音。
在本实施例中,对于步骤101,更新欢迎语的系统响应于设备被用户的唤醒音频唤醒,缓存该唤醒设备的唤醒音频。之后,在步骤102中,更新欢迎语的系统对唤醒音频进行识别从而基于识别的结果获取用户的当前用户画像,例如识别用户当前的声纹、语气等,其中,当前用户画像为用户当前的状态的画像信息,包括实时的信息,也包括用户的基本属性,如用户的性别、年龄等,本申请在此没有限制。
然后,对于步骤103,至少将用户的当前用户画像以回调的形式返回给开发者。之后获取开发者为具有当前用户画像的用户定制的欢迎语文本。在这个过程中,除了可以把当前用户画像以会掉的形式返回给开发者,还可以给开发者一些欢迎语文本,供开发者从中选择然后定制自己的欢迎语文本,或者将欢迎语文本的设计权全权交给开发者,本申请在此没有限制。
其中,回调就是已知A方法要调用B方法,但B方法会根据实际的操作有不同的实现,所以定义一个包含B方法的接口,让A方法调用此接口中的方法,而这个接口方法的实现则根据不同的情况实现即可。回调函数就是一个通过函数指针调用的函数。如果你把函数的指针(地址)作为参数传递给另一个函数,当这个指针被用来调用其所指向的函数时,我们就说这是回调函数。回调函数不是由该函数的实现方直接调用,而是在特定的事件或条件发生时由另外的一方调用的,用于对该事件或条件进行响应。
对于步骤104,更新欢迎语的系统基于开发者定制的欢迎语文本和用户的基本属性生成欢迎语合成音;之后在步骤105中,实时语音播报该欢迎语合成音。其中,根据欢迎语文本和基本属性生成欢迎语合成音可以是根据基础属性选择相应的声音去读欢迎语文本从而生成相应的欢迎语合成音,本申请在此没有限制。例如,用户唤醒设备之后,设备刚开始可以反馈普通的欢迎语,之后再根据对用户的唤醒音频的识别更新新的欢迎语,以与用户沟通的方式反馈给用户,例如刚开始反馈“您好!请问有什么可以帮您?”,之后在识别用户的当前用户画像之后,发现用户是个小女孩,现在心情还不错,则可以询问“小公主,什么事情这么高兴,能跟我分享一下吗?”,从而给用户一种生活中真实的沟通体验。
本实施例的方法通过采集用户的实时唤醒音频,之后对该唤醒音频进行识别,并将识别的结果返回给开发者进行欢迎语的定制,从而可以全方位的融入用户所处的情景中,为用户营造一种真实的交互体验,让开发者可以自由地定制欢迎语,为用户提供个性化的交互体验。
在一些可选的实施例中,基本属性包括年龄段和性别。
进一步参考图2,其示出了本申请一实施例提供的另一种更新欢迎语的方法的流程图。该实施例主要是对流程图1中步骤102进一步细化的流程图。
如图2所示,在步骤201中,对唤醒音频进行声纹识别以获取用户的基本属性;
在步骤202中,对唤醒音频进行情绪识别以获取用户当前的情绪信息;
最后,在步骤203中,获取与用户的基本属性和/或当前的情绪信息对应的欢迎语。
在本实施例中,对于步骤201,更新欢迎语的系统可以对之前缓存的唤醒音频进行声纹识别以获取该用户的基本属性,如性别、年龄段以及性格之类的基本属性。或者对于步骤202,也可以对该缓存的唤醒音频进行情绪识别以获取该用户当前的情绪信息。其中,情绪识别可以是提取唤醒音频中的音频特征向量,之后再与预先建立的各种情绪特征模型进行匹配,从而确定用户当前的情绪信息。当然,还可以采用其他的情绪识别的方案,本申请在此没有限制。之后,对于步骤203,获取与用户的基本属性和/或当前的情绪信息对应的欢迎语。该欢迎语可以是系统中预先存储的与各种基本属性和情绪信息对应的欢迎语,供开发者选择。
本实施例的方法通过对用户的唤醒音频进行声纹识别和情绪识别从而获得用户的当前用户画像,可以对用户当前所处的场景有一个更加充分地了解,从而为之后的开发者定制提供更加真实和具体的信息,便于后续提供更符合场景的欢迎语。当然,在一些可选的实施例中,不仅仅是对用户的唤醒音频进行识别,也可以对之后和用户的多轮交互时采集的用户的最新的音频进行识别,从而更加实时地分析用户的当前用户画像,进而能够提供更加确切更加实时的欢迎语信息,本申请在此没有限制。
进一步参考图3,其示出了本申请一实施例提供的又一种更新欢迎语的方法的流程图。该实施例主要是对流程图1中步骤102之后步骤进一步限定的步骤的流程图。
如图3所示,首先,在步骤301中,获取当前的时间信息和登记的用户生日信息;
之后,在步骤302中,判断当前的时间信息是否与用户的生日信息和/或节假日信息匹配;
然后,在步骤303中,若匹配,获取与用户的生日信息和/或节假日信息对应的欢迎语。
在本实施例中,对于步骤301,更新欢迎语的系统获取当前的时间信息和用户在该设备上登记的用户的生日信息。之后,对于步骤302,判断当前的时间信息是否与用户的生日信息和/或节假日信息匹配,其中节假日信息可以直接从存储的日历信息等信息中获取,或者其他现有的技术获得,由于获得的方式非常简单常规,在此不再赘述。最后,对于步骤303,若与用户的生日信息匹配,可以获取系统中与生日对应的欢迎语,如“生日快乐”“Happy Birthday”之类的,若与节假日匹配,则可以获取系统中与节假日匹配的欢迎语,如“中秋节快乐”之类的。
本实施例的方法通过获取当前的时间信息,并判断该时间信息是否与生日或者节假日匹配,之后再获取相应的欢迎语,可以基于时间信息给用户定制相应的欢迎语,更好地融入到用户的当前场景中。
进一步参考图4,其示出了本申请一实施例提供的再一种更新欢迎语的方法的流程图。该流程图主要是对流程图1中的步骤101之前的步骤进一步限定的流程图。
如图4所示,在步骤401中,初始化设备的使用场景,使用场景包括车载场景、家居场景和儿童故事机场景;
在步骤402中,开启唤醒节点以使得设备能够被用户的唤醒音频唤醒。
在本实施例中,对于步骤401,当设备启动后,更新欢迎语的系统需要首先初始化设备的使用场景,例如对于车载的环境,初始化为车载的场景,加载一些与车载场景相关的基础信息,如车载场景中需要用到的一些数据库和模型等,对于其他场景如家居场景和儿童故事机场景亦是如此,本申请在此没有限制。之后,对于步骤402,开启唤醒节点以使得该设备能够被预设的唤醒音频唤醒。
本实施例的方法主要是对更新欢迎语的系统的场景初始化进行了限定,从而在之后的步骤中,涉及到的欢迎语也是对应于相应的场景的欢迎语,从而数据量不会太大。
进一步参考图5,其示出了本申请一实施例提供的再一种更新欢迎语的方法的流程图。该流程图主要是对流程图1中的步骤103中“至少将用户的当前用户画像以回调的形式返回给开发者”进一步限定的流程图。
在步骤501中,基于使用场景确定各欢迎语的推荐百分比,其中各欢迎语在各使用场景具有不同的推荐百分比;
在步骤502中,将各欢迎语和与各欢迎语对应的推荐百分比以及用户的当前用户画像以回调的形式返回给开发者。
在本实施例中,对于步骤501,更新欢迎语的系统可以基于确定的使用场景,如车载场景、家居场景或儿童故事机场景,确定各欢迎语的推荐百分比,即各欢迎语在不同的场景中会有不同的推荐百分比,例如,有的欢迎语可能比较适用于家居场景,有的欢迎语可能会更适合车载场景,如在儿童故事机场景中“小公主,请问您有什么吩咐”可能更适用,在车载场景中“Hi,小美女,今天想去哪玩啊”可能会更适用,各个公司可以根据自己不同的需求和大数据的反馈对欢迎语和对应的推荐百分比进行预设,本申请在此没有限制。
之后,对于步骤502,将各欢迎语及对应的推荐百分比以及用户的当前用户画像以回调的形式返回给开发者,让开发者可以为其客户定制更合适的欢迎语,当然,开发者也可以不选择推荐的欢迎语而使用自己制作的欢迎语文本,本申请在此没哟限制。
本实施例的方法通过让平台可以根据场景自己定制欢迎语并给出各欢迎语对应的推荐百分比,从而可以让开发者更好地选择更适合相应的场景的欢迎语。进而用户的使用体验也能更加真实。
进一步参考图6,其示出了本申请一实施例提供的再一种更新欢迎语的方法的流程图。该流程图主要是对流程图1中的步骤104进一步限定的步骤的流程图。
如图6所示,步骤601中,选取与用户的基本属性适配的合成音种类;
之后,在步骤602中,使用适配的合成音种类对应的声音合成与欢迎语文本对应的欢迎语合成音。
在本实施例中,对于步骤601,更新欢迎语的系统选取与用户的基本属性适配的合成音种类,该合成音种类例如可以包括男声、女声、童声等。之后,对于步骤602,使用适配的合成音种类对应的声音合成与欢迎语文本对应的欢迎语合成音。例如,用户的基本属性是女生,3-6岁,则可以选择童声作为声源对欢迎语文本进行操作以生成相应的童声欢迎语合成音,再例如用户的基本属性是成年男性,则可以选择男声或者女声作为合成音种类进行欢迎语声音的合成,本申请在此没有限制。
本实施例的方法通过选取与用户的基本属性适配的合成音种类进行欢迎语声音的合成,可以使得欢迎语的声音能与用户形成更平等舒适地沟通,营造一种另用户更加舒适、感觉更真实的交互环境。
下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明,以使本领域技术人员更好地理解本申请的方案。
发明人发现,现有技术中存在的缺陷主要是由于以下内容导致的:
欢迎语的定位问题:现有技术方案中的欢迎语的定位只是一个告知行为,告知用户语音交互服务已经开始,并没有与用户做一个全方位的情景交互。
技术限制:很多语音交互平台无法识别当前用户的情景,比如年龄/性别/使用场景/用户情绪等等。
本申请的方案采用下面的方法来解决现有技术中存在的问题:
首先,要让交互平台感知到用户现在的使用情景,感知用户的年龄/性别/情绪等基本信息,从而智能推断出当前用户的情景进而选择最贴近用户的欢迎语与用户交互。
其次,欢迎语的定位不再是告知用户语音交互服务的开始,欢迎语的定位更应该像是老朋友见面时热情的打招呼。根据不同的年龄/性别/情绪等采用不同的欢迎语方式,尽量容入用户的当前情景中。
至于为什么想不到这种方案,一是因为市面上的方案的定位不同,市面上的方案的定位仅是告知用户,第二是因为技术限制,有些平台无法识别到用户的当前情景,尽而限制了后续的情景开发。
本申请的方案的一个具体实施例如下,需要说明的是以下实施例中虽然提到了一些具体的例子,但并不用于限制本申请的方案。
首先,就是定位方向的转变,我们现在欢迎语的定位就是情景式的融入。根据不同的年龄/性别/情绪等采用不同的欢迎语方式,尽量容入用户的当前情景中。
其次,就是将用户的使用场景做详细的分类,区分不同的用户真实场景,从而提供情景式的欢迎语。
再次,就是依靠我司强大的语音识别能力,判断出当前用户的年龄/性别/情绪等基本信息,从而提供个性化的交互体验。
动态情景式欢迎语流程图如图7所示,具体处理流程如下:
步骤一:
首先sdk(software development kit,软件开发包)初始化,初始化wakeup(唤醒)节点,TTS(Text To Speech,从文本到语音)节点,声纹识别节点等。
步骤二:
初始化完毕后,加载本地基础信息(当前使用场景:车载场景/家居场景/儿童故事)。
步骤三:
开启wakeup节点,开启成功之后用户就可以根据指定的唤醒词来唤醒语音交互平台。
步骤四:
用户语音输入唤醒词,成功唤醒语音交互平台,此时输出唤醒的基础信息(例如:唤醒词:你好小驰;欢迎语:我在,有什么可以帮你?)
步骤五:
将第四步缓存的音频输入声纹识别节点,此时输出当前用户的性别/年龄信息(例如:性别:女;年龄:儿童),进而通过性别和年龄更新欢迎语(此时欢迎语就会添加一条:小美女,我们又见面了!)
步骤六:
将第四步缓存的音频输入情绪识别节点,此时输出当前用户的情绪(快乐,忧伤,平和,恐惧,愤怒),进而通过用户的情绪更新欢迎语(此时欢迎语就添加一条:小美女,有什么开心的事与我分享一下呗)
步骤七:
根据节假日/生日等信息,动态更新欢迎语(此时欢迎语就添加一条:小美女,中秋快乐!)
步骤八:
通过回调的形式将多条欢迎语传送给开发者定制,并带有符合此情景下的推荐的百分比,由开发者选择。
步骤九:
欢迎语选择成功之后,根据不同的情景,选择合适的合成类型来生成合成音音频(例如儿童场景就选择儿童合成音,合成儿童的欢迎语)。
通过本解决方案可以给用户带一种真实的语音交互体验,全方位容入用户所处的情景中,给用户带来真实的人与人之间打招呼的感受。
请参考图8,其示出了本发明一实施例提供的更新欢迎语的系统的框图。
如图8所示,更新欢迎语的系统800,包括唤醒缓存单元810、识别获取单元820、回调定制单元830、合成单元840和实时播报单元850。
其中,唤醒缓存单元810,配置为响应于被用户的唤醒音频成功唤醒,缓存唤醒音频;识别获取单元820,配置为对唤醒音频进行识别以获取用户的当前用户画像,其中,当前用户画像包括用户的基本属性;回调定制单元830,配置为至少将用户的当前用户画像以回调的形式返回给开发者,获取开发者为具有当前用户画像的用户定制的欢迎语文本;合成单元840,配置为基于欢迎语文本和用户的基本属性生成欢迎语合成音;以及实时播报单元850,配置为实时语音播报欢迎语合成音。
应当理解,图8中记载的诸单元与参考图1、图2、图3、图4、图5以及图6中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图8中的诸单元,在此不再赘述。
值得注意的是,本公开的实施例中的模块并不用于限制本公开的方案,例如唤醒缓存单元可以描述为响应于被用户的唤醒音频成功唤醒,缓存唤醒音频的单元。另外,还可以通过硬件处理器来实现相关功能模块,例如唤醒缓存单元也可以用处理器实现,在此不再赘述。
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的更新欢迎语的方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
响应于被用户的唤醒音频成功唤醒,缓存所述唤醒音频;
对所述唤醒音频进行识别以获取所述用户的当前用户画像,其中,所述当前用户画像包括所述用户的基本属性;
至少将所述用户的当前用户画像以回调的形式返回给开发者,获取所述开发者为具有所述当前用户画像的用户定制的欢迎语文本;
基于所述欢迎语文本和所述用户的基本属性生成欢迎语合成音;
实时语音播报所述欢迎语合成音。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据更新欢迎语的装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至更新欢迎语的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项更新欢迎语的方法。
图9是本发明实施例提供的电子设备的结构示意图,如图9所示,该设备包括:一个或多个处理器910以及存储器920,图9中以一个处理器910为例。更新欢迎语的方法的设备还可以包括:输入装置930和输出装置940。处理器910、存储器920、输入装置930和输出装置940可以通过总线或者其他方式连接,图9中以通过总线连接为例。存储器920为上述的非易失性计算机可读存储介质。处理器910通过运行存储在存储器920中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例更新欢迎语的方法。输入装置930可接收输入的数字或字符信息,以及产生与信息投放装置的用户设置以及功能控制有关的键信号输入。输出装置940可包括显示屏等显示设备。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
作为一种实施方式,上述电子设备应用于更新欢迎语的装置中,用于客户端,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
响应于被用户的唤醒音频成功唤醒,缓存所述唤醒音频;
对所述唤醒音频进行识别以获取所述用户的当前用户画像,其中,所述当前用户画像包括所述用户的基本属性;
至少将所述用户的当前用户画像以回调的形式返回给开发者,获取所述开发者为具有所述当前用户画像的用户定制的欢迎语文本;
基于所述欢迎语文本和所述用户的基本属性生成欢迎语合成音;
实时语音播报所述欢迎语合成音。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。