CN114356276A - 一种语音交互方法以及相关装置 - Google Patents

一种语音交互方法以及相关装置 Download PDF

Info

Publication number
CN114356276A
CN114356276A CN202111580848.2A CN202111580848A CN114356276A CN 114356276 A CN114356276 A CN 114356276A CN 202111580848 A CN202111580848 A CN 202111580848A CN 114356276 A CN114356276 A CN 114356276A
Authority
CN
China
Prior art keywords
user
obtaining
tag
label
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111580848.2A
Other languages
English (en)
Inventor
周浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202111580848.2A priority Critical patent/CN114356276A/zh
Publication of CN114356276A publication Critical patent/CN114356276A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请公开了一种语音交互方法以及相关装置,该语音交互方法包括:接收用户的当前通话内容,并获得用户的身份标识;基于当前通话内容和身份标识获得当前时刻用户对应的至少一个用户标签,并将至少一个用户标签融合成用户对应的融合标签;基于规则引擎获得融合标签对应的个性化结果,并根据个性化结果和当前通话内容生成第一播报内容;其中,个性化结果包括第一语音特征;将第一播报内容和第一语音特征进行合成以获得第一播报语音,并向用户播报第一播报语音。这样可以实现对用户特征的实时采集,结合智能路由算法实现精准流程匹配及跳转,并结合用户特征对播报语音特征以及播报内容进行实时调整,从而实现千人千面的个性化服务,以提升用户体验。

Description

一种语音交互方法以及相关装置
技术领域
本申请属于人工智能的语音处理技术领域,具体涉及一种语音交互方法以及相关装置。
背景技术
随着人工智能技术的发展,智能语音导航系统已经在各行各业得到普及。智能语音导航系统具有24小时全天候服务的特点,其应用解决了呼叫中心人员流动率高、人员培训成本高等问题,大大节省了企业的成本。
目前的方案是所有用户进线以后均按照固有流程和用户进行交互,结合自然语言处理技术(NLP技术)对用户所说的内容进行解析,进而跳转到不同的业务流程中。但是这种方案在交互的过程中并不会考虑不同用户的特征,包括用户历史的业务办理、用户的喜好、实时通话中的情绪状况等,进而影响到用户的体验感同时导致问题解决率较低。因此,亟需一种新的语音交互方法来解决上述问题。
发明内容
主要解决的技术问题是提供一种语音交互方法以及相关装置,可以结合用户特征对智能导航系统的播报语音特征及播报内容进行实时调整。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种语音交互方法,包括:接收用户的当前通话内容,并获得所述用户的身份标识;基于所述当前通话内容和所述身份标识获得当前时刻所述用户对应的至少一个用户标签,并将所述至少一个用户标签融合成所述用户对应的融合标签;基于规则引擎获得所述融合标签对应的个性化结果,并根据所述个性化结果和所述当前通话内容生成第一播报内容;其中,所述个性化结果包括第一语音特征;将所述第一播报内容和所述第一语音特征进行合成以获得第一播报语音,并向所述用户播报所述第一播报语音。
其中,所述基于所述当前通话内容和所述身份标识获得当前时刻所述用户对应的至少一个用户标签,并将所述至少一个用户标签融合成当前时刻所述用户对应的融合标签的步骤,包括:基于所述当前通话内容中获得当前时刻所述用户对应的通话标签,并基于所述身份标识获得所述用户对应的业务标签和统计标签;将所述通话标签、所述业务标签和所述统计标签进行融合以获得当前时刻所述用户对应的所述融合标签。
其中,所述基于所述当前通话内容中获得当前时刻所述用户对应的通话标签的步骤,包括:从所述当前通话内容中获得当前时刻所述用户对应的音频特征,并基于所述音频特征获得当前时刻所述用户对应的所述通话标签;其中,所述通话标签包括所述用户说话的方言类型、所述用户的情绪以及所述用户说话的语速中的至少一种。
其中,所述基于所述身份标识获得所述用户对应的业务标签和统计标签的步骤,包括:基于所述身份标识从历史交互数据中获得所述用户对应的业务标签和统计标签;其中,所述业务标签包括预设时间段内所述用户的业务办理情况,所述统计标签包括所述用户的性别、年龄、工作、服务偏好中的至少一种。
其中,所述规则引擎中包括至少一个业务规则和至少一个业务流程,且所述至少一个业务规则对应一个所述业务流程;所述基于规则引擎获得所述融合标签对应的个性化结果的步骤,包括:将所述融合标签送入至所述规则引擎中,并基于所述融合标签获得所述用户对应的业务规则以及所述业务规则对应的业务流程;基于所述业务规则和所述业务流程获得所述融合标签对应的个性化结果。
其中,所述个性化结果还包括第一答复文本;所述根据所述个性化结果和所述当前通话内容生成第一播报内容的步骤,包括:对所述当前通话内容进行语义理解获得当前时刻所述用户对应的第一意图文本;将所述第一答复文本和所述第一意图文本进行结合生成所述第一播报内容。
其中,所述基于所述当前通话内容和所述身份标识获得当前时刻所述用户对应的至少一个用户标签,并将所述至少一个用户标签融合成所述用户对应的融合标签的步骤之后,还包括:响应于基于规则引擎未获得所述融合标签对应的个性化结果,获得所述用户的当前通话内容,对所述当前通话内容进行解析以获得解析结果;基于历史交互数据获得所述解析结果对应的第二播报语音,并向所述用户播报所述第二播报语音。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种语音交互装置,包括:第一获得模块,用于接收用户的当前通话内容,并获得所述用户对应的身份标识;标签模块,与所述第一获得模块耦接,用于基于所述当前通话内容和所述身份标识获得当前时刻所述用户对应的至少一个用户标签,并将所述至少一个用户标签融合成当前时刻所述用户对应的融合标签;生成模块,与所述标签模块耦接,用于基于规则引擎获得所述融合标签对应的个性化结果,并根据所述个性化结果和所述当前通话内容生成第一播报内容;其中,所述个性化结果包括第一语音特征;处理模块,与所述生成模块耦接,用于将所述第一播报内容和所述第一语音特征进行合成以获得第一播报语音,并向所述用户播报所述第一播报语音。
为解决上述技术问题,本申请采用的又一个技术方案是:提供一种电子设备,包括相互耦接的存储器和处理器,所述存储器内存储有程序指令,所述处理器用于执行所述程序指令以实现上述任一实施例所提及的语音交互方法。
为解决上述技术问题,本申请采用的又一个技术方案是:提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于实现上述任一实施例所提及的语音交互方法。
区别于现有技术的情况,本申请的有益效果是:本申请所提供的语音交互方法包括:接收用户的当前通话内容,并获得用户的身份标识;基于当前通话内容和身份标识获得当前时刻用户对应的至少一个用户标签,并将至少一个用户标签融合成用户对应的融合标签;基于规则引擎获得融合标签对应的个性化结果,根据个性化结果和当前通话内容生成第一播报内容;其中,个性化结果包括第一语音特征;将第一播报内容和第一语音特征进行合成以获得第一播报语音,并向用户播报所述第一播报语音。通过这种设计方式,可以实现对用户特征的实时采集,结合智能路由算法实现精准流程匹配及跳转,并结合用户特征对智能导航系统的播报语音特征以及播报内容进行实时调整,从而实现千人千面的个性化服务,以提升用户体验。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图,其中:
图1是本申请语音交互方法对应的业务流程示意图;
图2是本申请语音交互方法对应的流程匹配示意图;
图3是本申请语音交互方法一实施方式的流程示意图;
图4是图3中步骤S2一实施方式的流程示意图;
图5是图3中步骤S3对应的一实施方式的流程示意图;
图6是图3步骤S3对应的另一实施方式的流程示意图;
图7是本申请语音交互装置一实施方式的框架示意图;
图8是本申请电子设备一实施方式的框架示意图;
图9是本申请计算机可读存储介质一实施方式的框架示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
请参阅图1,图1是本申请语音交互方法对应的业务流程示意图。具体地,在本实施例中,如图1所示,本申请所提供的语音交互系统包括智能中控、语音识别模块、对话管理模块、语音合成模块、语义理解模块以及智能路由模块。具体而言,如图1所示,语音交互方法对应的业务流程具体为:(1)接入用户电话,智能中控接收语音流并将语音流传输至语音识别模块;(2)语音识别模块将转写结果返回智能中控,具体地,转写结果包括用户说话的方言类型、情绪、语速等;(3)智能中控将转写结果传入对话管理模块;(4)对话管理模块调用语义理解模块获取用户意图;(5)智能路由模块通过进行实时的标签获取以及标签融合,并结合预制路由策略制定个性化结果,个性化结果包括个性化的答复文本及个性化的语音播报;(6)智能中控将返回结果送入语音合成模块获取合成内容;(7)用户接收到智能语音导航系统的播报内容完成一次交互。这样可以实现对用户特征的实时采集,结合智能路由算法实现精准流程匹配及跳转,并结合用户特征对智能导航系统的播报语音以及第一播报内容进行实时调整,从而实现千人千面的个性化服务,以提升用户的交互体验。
请一并参阅图2和图3,图2是本申请语音交互方法对应的流程匹配示意图,图3是本申请语音交互方法一实施方式的流程示意图。该语音交互方法包括:
S1:接收用户的当前通话内容,并获得用户的身份标识。
具体地,在本实施例中,如图2所示,用户进线,系统获取用户的当前通话内容。具体而言,可以通过当前进线的用户的声纹来获取该用户的身份标识(id),当然,也可以通过当前进线的用户的号码来获取该用户的身份标识(id),本申请在此不作限定。
S2:基于当前通话内容和身份标识获得当前时刻用户对应的至少一个用户标签,并将至少一个用户标签融合成用户对应的融合标签。
具体地,在本实施例中,如图2所示,基于用户的当前通话内容和身份标识(id)进入用户标签获取子流程获取该用户对应的多维标签的融合结果。具体而言,上述用户标签包括通话标签、业务标签和统计标签。如图2所示,步骤S2的具体流程为:(1)进入用户标签获取子流程;(2)从当前通话内容中利用该用户的音频特征获取该用户对应的实时通话标签,通话标签的内容包括用户说话的方言类型、用户的情绪、用户说话的语速等;(3)通过用户的身份标识(id)从业务系统获取用户的历史业务办理情况,包括用户最近是否办理贷款业务、最近一次打电话的时间、是否办理信用卡等;(4)通过用户的身份标识(id)获取用户的统计标签,包括用户的性别、年龄、工作、服务偏好等;(5)对多维标签进行融合并返回至进入用户标签获取子流程的步骤;(6)将实时获取的融合标签送入规则引擎(即图1中的路由策略);其中,规则引擎内置了至少一个业务规则(即图2中的自定义规则)和至少一个业务流程(即图2中的个性化流程)之间的关系,且业务规则和业务流程之间是N:1的关系,即多个业务规则共同使用同一个业务流程;(7)如果规则引擎命中系统内置的个性化流程库,则进入个性化流程;(8)否则,进入通用流程,通用流程为用户进线以后,按照固有流程和用户进行交互,结合NLP技术对用户所说的内容进行解析,跳转到不同的业务流程中。这样可以实现对用户特征的实时采集,结合智能路由算法实现精准流程匹配及跳转,并结合用户特征对智能导航系统的播报语音以及第一播报内容进行实时调整,从而实现千人千面的个性化服务,以提升用户的交互体验。
下面将详细介绍步骤S2的具体流程步骤。具体地,在本实施例中,请参阅图4,图4是图3中步骤S2一实施方式的流程示意图。步骤S2具体包括:
S10:基于当前通话内容中获得当前时刻用户对应的通话标签,并基于身份标识获得用户对应的业务标签和统计标签。
具体地,在本实施例中,步骤S10中基于当前通话内容中获得当前时刻用户对应的通话标签的步骤包括:从当前通话内容中获得当前时刻用户对应的音频特征,并基于音频特征获得当前时刻用户对应的通话标签。具体而言,通话标签包括用户说话的方言类型(xx方言、普通话、英语等)、用户的情绪(高兴、平和、生气等)以及用户说话的语速(快、中等、慢等)中的至少一种,本申请在此不作限定。当然,在其他实施例中,也可以是基于用户声音的其他特征来获得当前时刻用户对应的通话标签,本申请在此不作限定。
具体地,在本实施例中,步骤S10中基于身份标识获得用户对应的业务标签和统计标签的步骤包括:基于身份标识从历史交互数据中获得用户对应的业务标签和统计标签。在本实施例中,如图1所示,上述历史交互数据可以是之前与该用户的人人对话、人机对话、交互语音应答系统(Interactive Voice Response,IVR交互轨迹)等的数据,此外,上述历史交互数据可以为该用户的业务偏好、经济能力、服务偏好等统计标签和该用户的历史业务系统等业务标签。具体而言,业务标签包括预设时间段内用户的业务办理情况,例如,用户最近是否办理贷款业务、最近一打电话的时间、是否办理信用卡等,本申请在此不作限定。统计标签包括用户的性别、年龄、工作、服务偏好中的至少一种。此外,在本实施例中,上述服务偏好是指用户喜欢的服务类型,例如,播报服务的声音(甜美、严肃等)、播报服务的语言(方言、普通话、英语等)、播报服务的语速(快、中等、慢)等,本申请在此不作限定。当然,在其他实施例中,统计标签也可以包括用户的居住地、性格等,例如该用户的居住地为xx市、性格内向等,本申请在此不作限定。这样可以根据用户丰富的个性化标签更加全面地了解用户,以提升用户体验。
S11:将通话标签、业务标签和统计标签进行融合以获得当前时刻用户对应的融合标签。
具体而言,将上述步骤S10中获得的通话标签、业务标签和统计标签这些多维标签进行融合获得当前时刻该用户对应的融合标签。当然,在其他实施例中,多维标签中也可以包括该用户当前时刻的其他标签,本申请在此不作限定。这样可以根据用户的多维标签生成更加多元化的个性化标签,从而更加全面地了解用户,以提升用户体验。
S3:基于规则引擎获得融合标签对应的个性化结果,并根据个性化结果和当前通话内容生成第一播报内容。
具体而言,个性化结果是指针对进线的用户播放内容的个性化,换句话说,就是根据用户的通话内容识别出用户的意图之后,根据流程得到了需要回复的内容,将上述需要回复的内容以一种与该用户匹配的个性化方式向其播放,比如,播放该内容时符合该用户的用词(例如方言类型等)、语气(例如严厉、欢快等)、语速(例如,快、中等、慢等)等语音合成的个性化特征。个性化结果包括第一语音特征。具体地,在本实施例中,如图1和图2所示,规则引擎相当于路由策略,上述规则引擎中包括至少一个业务规则(即图2中的自定义规则)和至少一个业务流程(即图2中的个性化流程),且至少一个业务规则对应一个业务流程。具体而言,可以是一个业务规则对应一个业务流程,也可以是多个业务规则对应一个业务流程,本申请在此不作限定。举例而言,业务规则可以是逾期催收规则、xx市宅男规则等,本申请在此不作限定。业务流程中的第一语音特征为中年严厉女生发音,且播报语音的内容为“先生您好,您已经多次逾期,对您的信用已经产生了很大的影响,希望您尽快完成回款”,当然,业务流程中的第一语音特征也可以为xx市的方言女性萝莉发音,且播报语音的内容中会自动注入二次元风格或者游戏风格用语,本申请在此不作限定。这样可以根据用户的个性化特征生成其对应的第一播报内容,以提升用户体验。
具体地,在本实施例中,请参阅图5,图5是图3中步骤S3对应的一实施方式的流程示意图。具体而言,步骤S3中基于规则引擎获得融合标签对应的个性化结果的步骤具体包括:
S20:将融合标签送入至规则引擎中,并基于融合标签获得用户对应的业务规则以及业务规则对应的业务流程。
具体地,在本实施例中,在上述步骤S2中获得用户对应的融合标签之后,将融合标签送入至规则引擎中,在规则引擎中寻找该融合标签命中的业务规则,从而根据业务规则获得其对应的业务流程。具体而言,若该用户对应的融合标签为“性别男、年龄38,信用卡逾期,历史逾期次数>2,工资金额低”,则该用户进线之后,命中规则引擎中的逾期催收规则,那么对应的业务流程采用中年严厉女生发音人向该用户播报语音,且播报的内容为“先生您好,您已经多次逾期,对您的信用已经产生了很大的影响,希望您尽快完成回款”;若该用户对应的融合标签为“性别男、居住地为xx市,性格内向,爱好动漫”,该用户进线之后,命中规则引擎中的xx市宅男规则,对应的业务流程采用xx市的方言女性萝莉发音人向该用户播报语音,且播报的内容中会自动注入二次元风格或者游戏风格用语。通过这种设计方式,可以符合该用户的个性进行语音播报,从而为用户提供个性化服务,以提升用户体验,进而实现千人千面的个性化导航。
S21:基于业务规则和业务流程获得融合标签对应的个性化结果。
具体而言,个性化结果还包括第一答复文本。如图1所示,将规则引擎(即路由策略)和标签融合模块中获得的融合标签送至智能路由模块,从而获得实时用户特征,第一答复文本是根据实时用户特征获得的。具体而言,若该用户对应的融合标签为“性别男、年龄38,信用卡逾期,历史逾期次数>2,工资金额低”,则该用户进线之后,命中规则引擎中的逾期催收规则,那么获得的个性化结果为:第一语音特征为中年严厉女生发音,且播报的内容(即第一答复文本)为“先生您好,您已经多次逾期,对您的信用已经产生了很大的影响,希望您尽快完成回款”;若该用户对应的融合标签为“性别男、居住地为xx市,性格内向,爱好动漫”,该用户进线之后,命中规则引擎中的xx市宅男规则,那么获得的个性化结果为:第一语音特征为xx市的方言女性萝莉发音,且播报的内容(即第一答复文本)中会自动注入二次元风格或者游戏风格用语。这样就可以获得该用户对应的个性化结果,以提升用户体验,进而实现千人千面的个性化导航。
具体地,在本实施例中,请一并参阅图1和图6,图6是图3步骤S3对应的另一实施方式的流程示意图。具体而言,步骤S3中根据个性化结果和当前通话内容生成第一播报内容的步骤具体包括:
S30:对当前通话内容进行语义理解获得当前时刻用户对应的第一意图文本。
具体而言,如图1所示,对当前通话内容进行语义理解,以匹配当前时刻用户所说的话的意图,获得该用户对应的第一意图文本,并将第一意图文本传送至对话管理模块。
S31:将第一答复文本和第一意图文本进行结合生成第一播报内容。
具体而言,如图1所示,在对话管理模块中将用户意图(即第一意图文本)和第一答复文本进行组合生成符合用户个性化的第一播报内容,从而可以提升用户体验,进而实现千人千面的个性化导航。
S4:将第一播报内容和第一语音特征进行合成以获得第一播报语音,并向用户播报第一播报语音。
具体而言,如图1所示,将上述步骤S31中获得的第一播报内容和个性化结果中的第一语音特征送至语音合成模块中进行合成以生成第一播报语音,并将第一播报语音送至智能中控中,以向用户播报第一播报语音。
通过这种设计方式,可以基于标签抽取技术、情绪识别技术、实时标签融合技术实现对用户特征的实时采集,结合智能路由算法实现精准流程匹配及跳转,并结合用户特征对智能导航系统的播报语音特征以及播报内容进行实时调整,从而实现千人千面的个性化服务,以提升用户体验。
具体地,在本实施例中,请继续参阅图2和图3,在步骤S2之后,该语音交互方法还包括:A、当基于规则引擎未获得融合标签对应的个性化结果时,获得用户的当前通话内容,对当前通话内容进行解析以获得解析结果;B、基于历史交互数据获得解析结果对应的第二播报语音,并向用户播报第二播报语音。具体而言,将该用户对应的融合标签送至规则引擎中,当规则引擎中不存在该融合标签对应的个性化结果时,则对该用户的当前通话内容进行解析以获得解析结果,上述解析结果中包括该用户的意图,从历史交互数据中获得符合该用户个性化的第二语音特征和第二播报内容,其中,第二播报内容是根据用户的意图获得的,最后将第二语音特征和第二播报内容进行合成获得第二播报语音,并向该用户播报该第二播报语音。这样可以在得知规则引擎中没有融合标签命中的业务规则时,直接使用历史数据来获得用户对应的播报内容,以节约计算资源。
请参阅图7,图7是本申请语音交互装置一实施方式的框架示意图。该语音交互装置具体包括:
第一获得模块10,用于接收用户的当前通话内容,并获得用户对应的身份标识。
标签模块12,与第一获得模块10耦接,用于基于当前通话内容和身份标识获得当前时刻用户对应的至少一个用户标签,并将至少一个用户标签融合成当前时刻用户对应的融合标签。
生成模块14,与标签模块12耦接,用于基于规则引擎获得融合标签对应的个性化结果,并根据个性化结果和当前通话内容生成第一播报内容;其中,个性化结果包括第一语音特征。
第一处理模块16,与生成模块14耦接,用于将第一播报内容和第一语音特征进行合成以获得第一播报语音,并向用户播报第一播报语音。
在一个实施方式中,上述标签模块12包括第二获得模块和融合模块,其中,第二获得模块的两端分别与第一获得模块10和融合模块耦接,融合模块的两端分别与第二获得模块和生成模块14耦接。第二获得模块用于基于当前通话内容中获得当前时刻用户对应的通话标签,并基于身份标识获得用户对应的业务标签和统计标签。在标签模块获得通话标签、业务标签和统计标签之后,融合模块用于将通话标签、业务标签和统计标签进行融合以获得当前时刻用户对应的融合标签。
进一步,第二获得模块包括音频模块,其两端分别与第一获得模块10和融合模块耦接,具体地,音频模块用于从当前通话内容中获得当前时刻用户对应的音频特征,并基于音频特征获得当前时刻用户对应的通话标签;其中,通话标签包括用户说话的方言类型、用户的情绪以及用户说话的语速中的至少一种。
进一步,第二获得模块还包括业务模块和统计模块,其中,业务模块和统计模块的两端分别与第一获得模块10和融合模块耦接,具体地,业务模块和统计模块用于基于身份标识从历史交互数据中获得用户对应的业务标签和统计标签;其中,业务标签包括预设时间段内用户的业务办理情况,所述统计标签包括用户的性别、年龄、工作、服务偏好中的至少一种。
在另一个实施方式中,生成模块14包括规则模块和个性化模块,规则模块的两端分别与标签模块12和个性化模块耦接。具体地,规则模块用于将融合标签送入至规则引擎中,并基于融合标签获得用户对应的业务规则以及业务规则对应的业务流程。个性化模块用于基于业务规则和业务流程获得融合标签对应的个性化结果。
进一步,生成模块14还包括意图模块和第一播报内容模块,具体地,意图模块的两端分别与个性化模块和第一播报内容模块耦接,第一播报内容模块与第一处理模块16耦接。具体而言,意图模块用于对当前通话内容进行语义理解获得当前时刻用户对应的第一意图文本。第一播报内容模块用于将第一答复文本和第一意图文本进行结合生成第一播报内容。
在又一个实施方式中,本申请所提供的语音交互装置还包括解析模块和第二处理模块,其中,解析模块的两端分别与标签模块12和第二处理模块耦接。具体地,解析模块用于响应于基于规则引擎未获得融合标签对应的个性化结果,获得用户的当前通话内容,对当前通话内容进行解析以获得解析结果。第二处理模块用于基于历史交互数据获得解析结果对应的第二播报语音,并向用户播报第二播报语音。
请参阅图8,图8是本申请电子设备一实施方式的框架示意图。该电子设备包括相互耦接的存储器20和处理器22。具体地,在本实施例中,存储器20内存储有程序指令,处理器22用于执行程序指令以实现上述任一实施例所提及的语音交互方法。
具体而言,处理器22还可以称为CPU(Central Processing Unit,中央处理单元)。处理器22可能是一种集成电路芯片,具有信号的处理能力。处理器22还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器22可以由多个集成电路芯片共同实现。
请参阅图9,图9是本申请计算机可读存储介质一实施方式的框架示意图。该计算机可读存储介质30存储有计算机程序300,能够被计算机所读取,计算机程序300能够被处理器执行,以实现上述任一实施例中所提及的语音交互方法。其中,该计算机程序300可以以软件产品的形式存储在上述计算机可读存储介质30中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。具有存储功能的计算机可读存储介质30可以是U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
总而言之,区别于现有技术的情况,本申请提供的语音交互方法包括:接收用户的当前通话内容,并获得用户的身份标识;基于当前通话内容和身份标识获得当前时刻用户对应的至少一个用户标签,并将至少一个用户标签融合成用户对应的融合标签;基于规则引擎获得融合标签对应的个性化结果,根据个性化结果和当前通话内容生成第一播报内容;其中,个性化结果包括第一语音特征;将第一播报内容和第一语音特征进行合成以获得第一播报语音,并向用户播报所述第一播报语音。这种方式可以实现对用户特征的实时采集,结合智能路由算法实现精准流程匹配及跳转,并结合用户特征对智能导航系统的播报及文案进行实时调整,实现千人千面的个性化服务,以提升用户体验。
以上所述仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种语音交互方法,其特征在于,包括:
接收用户的当前通话内容,并获得所述用户的身份标识;
基于所述当前通话内容和所述身份标识获得当前时刻所述用户对应的至少一个用户标签,并将所述至少一个用户标签融合成所述用户对应的融合标签;
基于规则引擎获得所述融合标签对应的个性化结果,并根据所述个性化结果和所述当前通话内容生成第一播报内容;其中,所述个性化结果包括第一语音特征;
将所述第一播报内容和所述第一语音特征进行合成以获得第一播报语音,并向所述用户播报所述第一播报语音。
2.根据权利要求1所述的语音交互方法,其特征在于,所述基于所述当前通话内容和所述身份标识获得当前时刻所述用户对应的至少一个用户标签,并将所述至少一个用户标签融合成当前时刻所述用户对应的融合标签的步骤,包括:
基于所述当前通话内容中获得当前时刻所述用户对应的通话标签,并基于所述身份标识获得所述用户对应的业务标签和统计标签;
将所述通话标签、所述业务标签和所述统计标签进行融合以获得当前时刻所述用户对应的所述融合标签。
3.根据权利要求2所述的语音交互方法,其特征在于,所述基于所述当前通话内容中获得当前时刻所述用户对应的通话标签的步骤,包括:
从所述当前通话内容中获得当前时刻所述用户对应的音频特征,并基于所述音频特征获得当前时刻所述用户对应的所述通话标签;其中,所述通话标签包括所述用户说话的方言类型、所述用户的情绪以及所述用户说话的语速中的至少一种。
4.根据权利要求2所述的语音交互方法,其特征在于,所述基于所述身份标识获得所述用户对应的业务标签和统计标签的步骤,包括:
基于所述身份标识从历史交互数据中获得所述用户对应的业务标签和统计标签;其中,所述业务标签包括预设时间段内所述用户的业务办理情况,所述统计标签包括所述用户的性别、年龄、工作、服务偏好中的至少一种。
5.根据权利要求1所述的语音交互方法,其特征在于,所述规则引擎中包括至少一个业务规则和至少一个业务流程,且所述至少一个业务规则对应一个所述业务流程;所述基于规则引擎获得所述融合标签对应的个性化结果的步骤,包括:
将所述融合标签送入至所述规则引擎中,并基于所述融合标签获得所述用户对应的业务规则以及所述业务规则对应的业务流程;
基于所述业务规则和所述业务流程获得所述融合标签对应的个性化结果。
6.根据权利要求1所述的语音交互方法,其特征在于,所述个性化结果还包括第一答复文本;所述根据所述个性化结果和所述当前通话内容生成第一播报内容的步骤,包括:
对所述当前通话内容进行语义理解获得当前时刻所述用户对应的第一意图文本;
将所述第一答复文本和所述第一意图文本进行结合生成所述第一播报内容。
7.根据权利要求1所述的语音交互方法,其特征在于,所述基于所述当前通话内容和所述身份标识获得当前时刻所述用户对应的至少一个用户标签,并将所述至少一个用户标签融合成所述用户对应的融合标签的步骤之后,还包括:
响应于基于规则引擎未获得所述融合标签对应的个性化结果,获得所述用户的当前通话内容,对所述当前通话内容进行解析以获得解析结果;
基于历史交互数据获得所述解析结果对应的第二播报语音,并向所述用户播报所述第二播报语音。
8.一种语音交互装置,其特征在于,包括:
第一获得模块,用于接收用户的当前通话内容,并获得所述用户对应的身份标识;
标签模块,与所述第一获得模块耦接,用于基于所述当前通话内容和所述身份标识获得当前时刻所述用户对应的至少一个用户标签,并将所述至少一个用户标签融合成当前时刻所述用户对应的融合标签;
生成模块,与所述标签模块耦接,用于基于规则引擎获得所述融合标签对应的个性化结果,并根据所述个性化结果和所述当前通话内容生成第一播报内容;其中,所述个性化结果包括第一语音特征;
第一处理模块,与所述生成模块耦接,用于将所述第一播报内容和所述第一语音特征进行合成以获得第一播报语音,并向所述用户播报所述第一播报语音。
9.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述存储器内存储有程序指令,所述处理器用于执行所述程序指令以实现权利要求1至7中任一项所述的语音交互方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于实现权利要求1至7任一项所述的语音交互方法。
CN202111580848.2A 2021-12-22 2021-12-22 一种语音交互方法以及相关装置 Pending CN114356276A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111580848.2A CN114356276A (zh) 2021-12-22 2021-12-22 一种语音交互方法以及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111580848.2A CN114356276A (zh) 2021-12-22 2021-12-22 一种语音交互方法以及相关装置

Publications (1)

Publication Number Publication Date
CN114356276A true CN114356276A (zh) 2022-04-15

Family

ID=81101867

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111580848.2A Pending CN114356276A (zh) 2021-12-22 2021-12-22 一种语音交互方法以及相关装置

Country Status (1)

Country Link
CN (1) CN114356276A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105654950A (zh) * 2016-01-28 2016-06-08 百度在线网络技术(北京)有限公司 自适应语音反馈方法和装置
CN111858892A (zh) * 2020-07-24 2020-10-30 中国平安人寿保险股份有限公司 基于知识图谱的语音交互方法、装置、设备及介质
CN111897931A (zh) * 2020-06-24 2020-11-06 深圳追一科技有限公司 对话设置方法和装置、服务器、计算机可读存储介质
CN112685551A (zh) * 2021-01-13 2021-04-20 腾讯科技(深圳)有限公司 语料库构建方法、聊天机器人会话方法及相关装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105654950A (zh) * 2016-01-28 2016-06-08 百度在线网络技术(北京)有限公司 自适应语音反馈方法和装置
CN111897931A (zh) * 2020-06-24 2020-11-06 深圳追一科技有限公司 对话设置方法和装置、服务器、计算机可读存储介质
CN111858892A (zh) * 2020-07-24 2020-10-30 中国平安人寿保险股份有限公司 基于知识图谱的语音交互方法、装置、设备及介质
CN112685551A (zh) * 2021-01-13 2021-04-20 腾讯科技(深圳)有限公司 语料库构建方法、聊天机器人会话方法及相关装置

Similar Documents

Publication Publication Date Title
CN111653262B (zh) 一种智能语音交互系统及方法
CN111488433B (zh) 一种适用于银行的提升现场体验感的人工智能交互系统
CN107886949B (zh) 一种内容推荐方法及装置
CN104239459B (zh) 语音搜索方法、装置和系统
US7640160B2 (en) Systems and methods for responding to natural language speech utterance
US9626959B2 (en) System and method of supporting adaptive misrecognition in conversational speech
CN112202978A (zh) 智能外呼系统、方法、计算机系统及存储介质
US20080273674A1 (en) Computer generated prompting
CN111666380A (zh) 一种智能呼叫方法、装置、设备和介质
CN111128175B (zh) 口语对话管理方法及系统
CN114818649A (zh) 基于智能语音交互技术的业务咨询处理方法及装置
CN112185344A (zh) 语音交互方法、装置、计算机可读存储介质和处理器
CN116631412A (zh) 一种通过声纹匹配判断语音机器人的方法
DE112022000504T5 (de) Interaktive Inhaltsausgabe
CN114138960A (zh) 用户意图识别方法、装置、设备及介质
CN110246494A (zh) 基于语音识别的服务请求方法、装置及计算机设备
CN111897931A (zh) 对话设置方法和装置、服务器、计算机可读存储介质
CN112102807A (zh) 语音合成方法、装置、计算机设备和存储介质
CN111862970A (zh) 一种基于智能语音机器人的虚假宣传治理应用方法及装置
CN114356276A (zh) 一种语音交互方法以及相关装置
CN110781329A (zh) 图像搜索方法、装置、终端设备及存储介质
CN115831125A (zh) 语音识别方法、装置、设备、存储介质及产品
Gilbert et al. Intelligent virtual agents for contact center automation
CN114519094A (zh) 基于随机状态的话术推荐方法、装置及电子设备
CN110781327B (zh) 图像搜索方法、装置、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination