发明内容
本发明实施例提供了一种基于语音呼叫的业务流程实现方法及系统,用于提高业务流程实现的智能性,提高用户体验。
本发明第一方面提供一种基于语音呼叫的业务流程实现方法,其中,可包括:
获取用于业务请求的连续语音信号;
对所述连续语音信号进行语音识别,并将所述连续语音信号转换成文字候选序列;
对所述文字候选序列进行文本分类;
根据所述文本分类确定所述文字候选序列对应的业务类型;
判断当前文本分类确定的业务类型是否可靠;
若确定出当前文本分类确定的业务类型可靠,则根据确定的业务类型,指引执行与所述业务类型相应的业务流程。
可选地,所述判断当前文本分类确定的业务类型是否可靠包括:
判断当前业务请求是为集内任务或是为集外任务;
若所述当前业务请求是为集内任务,则判断出当前文本分类确定的业务类型可靠;
若所述当前业务请求是为集外任务,则判断出当前文本分类确定的业务类型不可靠。
可选地,所述判断当前业务请求是为集内任务或是为集外任务,包括:
计算当前文本分类的置信度;
判断所述文本分类的置信度是否大于第一预置阈值;
若所述文本分类的置信度小于第一预置阈值,则判断出当前业务请求是为集外任务;
若所述文本分类的置信度大于或等于第一预置阈值,则计算语音识别的置信度;
若所述语音识别的置信度小于第二预置阈值,则判断出当前业务请求是为集外任务;
若所述语音识别的置信度大于或等于第二预置阈值,则判断出当前业务请求是为集内任务。
可选地,所述计算语音识别的置信度为基于词后验概率WPP的置信度计算方法计算语音识别的置信度;
所述基于词后验概率WPP的置信度计算方法计算语音识别的置信度,包括:
获取所述连续语音信号解码得到的字词候选解码路径组成的网络Lattice;
根据互信息MI准则及所述字词的逆向文件频率IDF值确认业务关键词;
基于以下公式计算关键词声学置信度:
p(w|lattice)=Φ(w)Ψ(w)p(w)/p(lattice);
公式中,Φ(w)为该关键词的前向概率,Ψ(w)为该关键词的后向概率,p(w)为该关键词本身的概率;其中p(w)=p(ac)αp(lm)β,p(ac)表示解码的声学概率,p(lm)表示语言模型概率,α和β分别表示声学和语言的规整Scaling因子,p(lattice)表示整个Lattice中所有路径path的概率和;
根据所有关键词声学置信度的平均值确认语音识别的置信度。
可选地,所述判断出当前业务请求是为集内任务之后,所述方法还包括:
判断所述语音识别的置信度是否大于或等于第三预置阈值,所述第三预置阈值大于所述第二预置阈值;
若所述语音识别的置信度大于或等于第三预置阈值,则触发根据所述文本分类确定所述文字候选序列对应的业务类型的动作;
若所述语音识别的置信度小于第三预置阈值,则向请求用户设备确认语音识别结果是否正确;
若所述语音识别结果正确,则触发根据所述文本分类确定所述文字候选序列对应的业务类型的动作;
若所述语音识别结果不正确,则对判断出当前业务请求是为集内任务的判断结果进行修正。
可选地,所述判断出当前业务请求是为集外任务之后,所述方法还包括:
计算当前业务请求对应的声学置信度;
判断所述声学置信度是否大于或等于第四预置阈值;
若所述声学置信度小于第四预置阈值,则对当前业务请求进行噪音原因分析;
若所述声学置信度大于或等于第四预置阈值,则计算当前文字候选序列文本的集外任务置信度,并判断所述当前文字候选序列文本的集外任务置信度是否大于或等于第五预置阈值;
若当前文字候选序列文本的集外任务置信度大于或等于第五预置阈值,则向人工服务台转入该业务请求;
若当前文字候选序列文本的集外任务置信度小于第五预置阈值,则对当前业务请求对应的连续语音信号进行表达方式分析。
本发明第二方面提供一种基于语音呼叫的业务流程实现系统,其中,可包括:
获取模块,用于获取用于业务请求的连续语音信号;
识别转换模块,用于对所述连续语音信号进行语音识别,并将所述连续语音信号转换成文字候选序列;
分类模块,用于对所述文字候选序列进行文本分类;
确定模块,用于根据所述文本分类确定所述文字候选序列对应的业务类型;
第一判断处理模块,用于判断当前文本分类确定的业务类型是否可靠;
执行模块,用于若确定出当前文本分类确定的业务类型可靠,则根据确定的业务类型,指引执行与所述业务类型相应的业务流程。
可选地,所述第一判断处理模块,具体用于判断当前业务请求是为集内任务或是为集外任务;若所述当前业务请求是为集内任务,则判断出当前文本分类确定的业务类型可靠;若所述当前业务请求是为集外任务,则判断出当前文本分类确定的业务类型不可靠。
可选地,所述第一判断处理模块,用于判断当前业务请求是为集内任务或是为集外任务包括:计算当前文本分类的置信度;判断所述文本分类的置信度是否大于第一预置阈值;若所述文本分类的置信度小于第一预置阈值,则判断出当前业务请求是为集外任务;若所述文本分类的置信度大于或等于第一预置阈值,则计算语音识别的置信度;若所述语音识别的置信度小于第二预置阈值,则判断出当前业务请求是为集外任务;若所述语音识别的置信度大于或等于第二预置阈值,则判断出当前业务请求是为集内任务。
可选地,所述第一判断处理模块包括计算单元;
所述计算单元,用于基于词后验概率WPP的置信度计算方法计算语音识别的置信度;所述基于词后验概率WPP的置信度计算方法计算语音识别的置信度,包括:获取所述连续语音信号解码得到的字词候选解码路径组成的网络Lattice;根据互信息MI准则及所述字词的逆向文件频率IDF值确认业务关键词;基于以下公式计算关键词声学置信度:p(w|lattice)=Φ(w)Ψ(w)p(w)/p(lattice);公式中,Φ(w)为该关键词的前向概率,Ψ(w)为该关键词的后向概率,p(w)为该关键词本身的概率;其中p(w)=p(ac)αp(lm)β,p(ac)表示解码的声学概率,p(lm)表示语言模型概率,α和β分别表示声学和语言的规整Scaling因子,p(lattice)表示整个Lattice中所有路径path的概率和;根据所有关键词声学置信度的平均值确认语音识别的置信度。
可选地,所述基于语音呼叫的业务流程实现系统还包括:
第二判断处理模块,用于判断所述语音识别的置信度是否大于或等于第三预置阈值,所述第三预置阈值大于所述第二预置阈值;若所述语音识别的置信度大于或等于第三预置阈值,则触发根据所述文本分类确定所述文字候选序列对应的业务类型的动作;若所述语音识别的置信度小于第三预置阈值,则向请求用户设备确认语音识别结果是否正确;若所述语音识别结果正确,则触发根据所述文本分类确定所述文字候选序列对应的业务类型的动作;若所述语音识别结果不正确,则对判断出当前业务请求是为集内任务的判断结果进行修正。
可选地,所述基于语音呼叫的业务流程实现系统还包括:
第三判断处理模块,用于计算当前业务请求对应的声学置信度;判断所述声学置信度是否大于或等于第四预置阈值;若所述声学置信度小于第四预置阈值,则对当前业务请求进行噪音原因分析;若所述声学置信度大于或等于第四预置阈值,则计算当前文本候选序列文本的集外任务置信度,并判断当前文字候选序列文本的集外任务置信度是否大于或等于第五预置阈值;若当前文字候选序列文本的集外任务置信度大于或等于第五预置阈值,则向人工服务台转入该业务请求;若当前文字候选序列文本的集外任务置信度小于第五预置阈值,则对当前业务请求对应的连续语音信号进行表达方式分析。
从以上技术方案可以看出,本发明实施例提供的基于语音呼叫的业务流程实现方法及系统,具有以下优点:在接收到用于业务请求的连续语音信号后,将其转换为文字候选序列,并确定对应的业务类型,根据确定的业务类型,指引执行与所述业务类型相应的业务流程,提高了语音业务指引的准确性和有效性,避免了过多错误指引给用户带来的困扰,提高业务流程实现的智能性和人机交互的自然性。
具体实施方式
本发明实施例提供了一种基于语音呼叫的业务流程实现方法及系统,用于提高业务流程实现的智能性,提高用户体验。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
以下分别进行详细说明。
请参考图1,图1为本发明实施例提供的一种基于语音呼叫的业务流程实现方法流程示意图;其中,所述方法包括:
步骤101、获取用于业务请求的连续语音信号;
可以理解的是,获取用户输入的连续语音信号,所述连续语音信号用于业务请求。
步骤102、对所述连续语音信号进行语音识别,并将所述连续语音信号转换成文字候选序列;
步骤103、对所述文字候选序列进行文本分类;
步骤104、根据所述文本分类确定所述文字候选序列对应的业务类型;
步骤105、判断当前文本分类确定的业务类型是否可靠;
步骤106、若确定出当前文本分类确定的业务类型可靠,则根据确定的业务类型,指引执行与所述业务类型相应的业务流程。
由上述描述可知,本发明实施例提供的基于语音呼叫的业务流程实现方法,在接收到用于业务请求的连续语音信号后,将其转换为文字候选序列,并确定对应的业务类型,根据确定的业务类型,指引执行与所述业务类型相应的业务流程,提高了语音业务指引的准确性和有效性,避免了过多错误指引给用户带来的困扰,提高业务流程实现的智能性和人机交互的自然性。
可选地,请参考图2a,图2a为本发明实施例提供的基于语音呼叫的业务流程实现方法另一流程示意图;
在某些实施方式中,所述判断当前当前文本分类确定的业务类型是否可靠(步骤105)可以具体包括:
步骤105-11、判断当前业务请求是为集内任务或是为集外任务;
步骤105-12-a、若所述当前业务请求是为集内任务,则判断出当前文本分类确定的业务类型可靠;
步骤105-12-b、若所述当前业务请求是为集外任务,则判断出当前文本分类确定的业务类型不可靠。
其中,若确定出当前文本分类确定的业务类型可靠,则可以触发根据确定的业务类型,指引执行与所述业务类型相应的业务流程(即步骤106);也就是说,本发明实施例中,综合考虑语音识别和文本分类的准确性,确认分类结果,提高业务请求分类的正确性。
在某些实施方式中,可参考图2b,图2b为本发明实施例提供的基于语音呼叫的业务流程实现方法中步骤105-11的流程示意图,其中,所述判断当前业务请求是为集内任务或是为集外任务(步骤105-11),可以基于以下方式进行判断:
步骤105-11-1、计算当前文本分类的置信度;
可以理解的是,所述文本分类的置信度是指当前文字侯选序列表示的语义属于集内的概率。
步骤105-11-2、判断所述文本分类的置信度是否大于第一预置阈值;
步骤105-11-3a、若所述文本分类的置信度小于第一预置阈值,则判断出当前业务请求是为集外任务;
步骤105-11-3b、若所述文本分类的置信度大于或等于第一预置阈值,则计算语音识别的置信度;
在某些实施方式中,可以基于词后验概率(WPP,WordPosteriorProbability)的置信度计算方法计算语音识别的置信度;
可以理解的是,本发明实施例中,所述基于词后验概率WPP的置信度计算方法计算语音识别的置信度,可以具体包括:
(1)获取所述连续语音信号解码得到的字词候选解码路径组成的网络Lattice;
(2)根据互信息(MI,MutualInformation)准则及所述字词的逆向文件频率(IDF,inversedocumentfrequency)值确认业务关键词;
(3)计算关键词声学置信度,具体地计算公式用贝叶斯公式展开为:
p(w|lattice)=Φ(w)Ψ(w)p(w)/p(lattice);
上述公式中,Φ(w)为该关键词的前向概率,Ψ(w)为该关键词的后向概率,p(w)为该关键词本身的概率;其中p(w)=p(ac)αp(lm)β,p(ac)表示解码的声学概率,p(lm)表示语言模型概率,α和β分别表示声学和语言的规整Scaling因子,p(lattice)表示整个Lattice中所有路径path的概率和。
(4)根据所有关键词声学置信度的平均值确认语音识别的置信度。
可以理解的是,相比于基于路径后验概率计算的置信度方法,基于关键词后验概率计算的方法可以去除其它词的置信度干扰,提高准确性。
步骤105-11-4a、若所述语音识别的置信度小于第二预置阈值,则判断出当前业务请求是为集外任务;
步骤105-11-4b、若所述语音识别的置信度大于或等于第二预置阈值,则判断出当前业务请求是为集内任务。
可以理解的是,所述第一预置阈值和所述第二预置阈值可以预先设置在系统中;
其中,若判断出当前业务请求是为集内任务,则可认为是可以响应的任务,当前文本分类确定的业务类型可靠(即步骤105-12-a);若当前业务请求是为集外任务,则可认为是不可响应的任务,当前文本分类确定的业务类型不可靠(即步骤105-12-b)。
容易想到的是,声学置信度很低的语音识别错误的可能性较大,对此系统将其判为集外任务,由集外处理流程对识别结果继续处理。通常地,为了避免将可处理的集内任务错误丢弃为集外任务,声学置信度域值(即第二预置阈值)通常会设置为较小的数值。
本发明实施例中,通过引入语音识别置信度信息,对预判定为集内任务的分类结果进一步确认,避免了传统系统中存在的由于识别错误导致的分类错误及错误的呼叫响应,提高准确性和用户体验。
由上述描述可知,本发明实施例提供的基于语音呼叫的业务流程实现方法,在接收到用于业务请求的连续语音信号后,将其转换为文字候选序列,并确定对应的业务类型,根据确定的业务类型,指引执行与所述业务类型相应的业务流程,提高了语音业务指引的准确性和有效性,避免了过多错误指引给用户带来的困扰,提高业务流程实现的智能性和人机交互的自然性。
可选地,本发明实施例提供的基于语音呼叫的业务流程实现方法,不同于传统系统的简单响应措施,对集内任务直接呼叫转移,而对集外任务直接拒绝,并返回无法支持的结果;由此,本发明实施例提出了一种更为人性智能的响应机制,分别对集外任务采用智能引导方式以帮助用户熟悉系统应用,以及对集内任务的高准确认。
对于集内任务的引导,可参考图3a,图3a为本发明实施例提供的基于语音呼叫的业务流程实现方法中步骤105-11-4b之后的流程示意图,其中,所述判断出当前业务请求是为集内任务(即步骤105-11-4b)之后,所述方法还可以包括:
步骤107、判断所述语音识别的置信度是否大于或等于第三预置阈值;
其中,所述第三预置阈值大于所述第二预置阈值;
步骤108-a、若所述语音识别的置信度大于或等于第三预置阈值,则触发根据所述文本分类确定所述文字候选序列对应的业务类型的动作;
步骤108-b、若所述语音识别的置信度小于第三预置阈值,则向请求用户设备确认语音识别结果是否正确;
步骤109-a、若所述语音识别结果正确,则触发根据所述文本分类确定所述文字候选序列对应的业务类型的动作;
步骤109-b、若所述语音识别结果不正确,则对判断出当前业务请求是为集内任务的判断结果进行修正。
可以理解的是,所述第三预置阈值可以预先设置在系统中;
在该实施方式中,系统通过进一步设置某一具有较大数值的声学置信度域值(即第三预置阈值大于第二预置阈值),以确保进入业务转移的输入具有较大的可信度,以实现更准确的业务响应。一般来说,对于声学置信度很高的语音识别结果,其错误的可能性极小,因而可以直接接收;而对于声学置信度在两个门限之间的语音,有一定的概率发生识别错误,本案向用户进一步征询(即步骤108-b),获取确认信息,以避免集内正确识别被“丢弃”从而影响集内的正确率。根据用户“确认”结果,执行触发根据所述文本分类确定所述文字候选序列对应的业务类型的动作,或者对判断出当前业务请求是为集内任务的判断结果进行修正;
可以理解的是,所述集内任务引导处理的方法主要实现了对预判断为集内任务的输入的纠错和确认,特别是由于语音识别错误导致的分类错误,提高了传统系统对集内任务执行的准确率。
另容易想到的是,在业务转移中,可能由于用户语音输入存在歧义,导致存在两个或以上的业务分类。对此,本发明实施例中,系统还可以引入消歧策略,根据文本置信度自动选择或由系统向客户提出合适的问题以进一步确认信息,提高集内任务正确的可能。比如:对用户输入“我要查一下交易明细”的业务请求,系统分类结果可能包括“账户交易明细”和“外汇交易明细”两个业务选项。歧义消除策略指引根据该业务选项向客户请求确认,等待客户反馈后重新进入业务流程。
由上述描述可知,本发明实施例提供的基于语音呼叫的业务流程实现系统,在接收到用于业务请求的连续语音信号后,将其转换为文字候选序列,并确定对应的业务类型,根据确定的业务类型,指引执行与所述业务类型相应的业务流程,提高了语音业务指引的准确性和有效性,避免了过多错误指引给用户带来的困扰,提高业务流程实现的智能性和人机交互的自然性。
对于集外任务的引导,在实际应用中,用户由于不熟悉系统应用,可能输入系统不能支持的业务请求,或者输入大量与系统业务无关的语音,如噪音,口语词等。而受限于目前语音识别及文本分类技术,系统往往无法提供准确的服务,对此传统系统往往通过简单方式拒绝或要求用户重新输入。而在没有任何提示信息的情况下,用户很可能按照已有方式重新输入,导致依然无法获取相应服务,从而影响了用户体验。
本发明提供的实施例中,对系统判定为无法呼叫引导的输入,分别从“非正常语音输入”、“超出系统范围的语音”及“语音识别的错误”等多角度进行原因分析,并给与相应引导,帮助用户熟悉系统使用。
进一步可选地,可参考图3b,图3b为本发明实施例提供的基于语音呼叫的业务流程实现方法中步骤105-11-3a或步骤105-11-4a之后的流程示意图,其中,所述判断出当前业务请求是为集外任务(即步骤105-11-3a或步骤105-11-4a)之后,所述方法还可以包括:
步骤110、计算当前业务请求对应的声学置信度;
可以理解的是,所述声学置信度是指用户语音正确识别成当前文字侯选序列的概率。
步骤111、判断所述声学置信度是否大于或等于第四预置阈值;
步骤112-a、若所述声学置信度小于第四预置阈值,则对当前业务请求进行噪音原因分析;
步骤112-b、若所述声学置信度大于或等于第四预置阈值,则计算当前文字候选序列文本的集外任务置信度,并判断所述集外任务置信度是否大于或等于第五预置阈值;
其中,该步骤主要用于解决某些识别结果可信,但可能为系统范围外业务的输入。具体的,本发明可以采用各种分类器,如基于支持向量机SVM(SupportVectorMachine)分类器的集外文本导航技术,对常见的集外业务及闲聊类语音进行文本分类。可选的,集外文本置信度可以采用文本分类器第一候选的后验概率作为置信度。
步骤113-a、若当前文字候选序列文本的集外任务置信度大于或等于第五预置阈值,则向人工服务台转入该业务请求;
可选的,可以直接向人工客服提供原始录入的语音,避免用户重复输入。进一步的,还可以对用户输入的集外业务请求进行类别分类,将其转入更专业的客服,以提高处理效率。
步骤113-b、若当前文字候选序列文本的集外任务置信度小于第五预置阈值,则对当前业务请求对应的连续语音信号进行表达方式分析。
例如:判断其输入字符串长度是否超过预设域值,或者无意义语音是否过多等等。对此,本发明可以提供特定引导词,要求用户按照正常方式简短输入语音命令。
可以理解的是,所述第四预置阈值和所述第五预置阈值可以预先设置在系统中;
其中,所述集外任务引导处理的方法主要对集外正确拒识的部分进行智能的分类处理,并给出不同的提示音引导。其中,可主要采用基于声学置信度与集外文本导航两种技术的结合,即如果声学置信度门限较低,认为输入为非语音的可能性较大;如果声学置信度门限较高,认为输入为语音的可能性且识别正确的可能性较大,继而进一步采用集外文本导航,区分无法进行导航的原因,并进行相应引导。
由上述描述可知,本发明实施例提供的基于语音呼叫的业务流程实现方法,在接收到用于业务请求的连续语音信号后,将其转换为文字候选序列,并确定对应的业务类型,根据确定的业务类型,指引执行与所述业务类型相应的业务流程,提高了语音业务指引的准确性和有效性,避免了过多错误指引给用户带来的困扰,提高业务流程实现的智能性和人机交互的自然性。
为便于更好的实施本发明实施例的技术方案,本发明实施例还提供用于实施上述基于语音呼叫的业务流程实现方法的系统。其中名词的含义与上述方法中相同,具体实现细节可以参考方法实施例中的说明。
请参考图4,图4为本发明实施例提供的基于语音呼叫的业务流程实现系统的结构示意图,所述系统包括获取模块401、识别转换模块402、分类模块403、确定模块404、第一判断处理模块405以及执行模块406:
所述获取模块401,用于获取用于业务请求的连续语音信号;
可以理解的是,获取用户输入的连续语音信号,所述连续语音信号用于业务请求。
所述识别转换模块402,用于对所述连续语音信号进行语音识别,并将所述连续语音信号转换成文字候选序列;
所述分类模块403,用于对所述文字候选序列进行文本分类;
所述确定模块404,用于根据所述文本分类确定所述文字候选序列对应的业务类型;
所述第一判断处理模块405,用于判断当前文本分类确定的业务类型是否可靠;
所述执行模块406,用于若确定出当前文本分类确定的业务类型可靠,则根据确定的业务类型,指引执行与所述业务类型相应的业务流程。
由上述描述可知,本发明实施例提供的基于语音呼叫的业务流程实现系统,在接收到用于业务请求的连续语音信号后,将其转换为文字候选序列,并确定对应的业务类型,根据确定的业务类型,指引执行与所述业务类型相应的业务流程,提高了语音业务指引的准确性和有效性,避免了过多错误指引给用户带来的困扰,提高业务流程实现的智能性和人机交互的自然性。
可选地,所述第一判断处理模块405在所述执行模块406根据确定的业务类型,指引执行与所述业务类型相应的业务流程之前,具体用于判断当前业务请求是为集内任务或是为集外任务;若所述当前业务请求是为集内任务,则判断出当前文本分类确定的业务类型可靠;若所述当前业务请求是为集外任务,则判断出当前文本分类确定的业务类型不可靠。
其中,若确定出当前文本分类可靠,则可以触发执行模块406根据确定的业务类型,指引执行与所述业务类型相应的业务流程;也就是说,综合考虑语音识别和文本分类的准确性,确认分类结果,提高业务请求分类的正确性。
可选地,所述第一判断处理模块405,用于判断当前业务请求是为集内任务或是为集外任务可以具体包括:
计算当前文本分类的置信度;判断所述文本分类的置信度是否大于第一预置阈值;若所述文本分类的置信度小于第一预置阈值,则判断出当前业务请求是为集外任务;若所述文本分类的置信度大于或等于第一预置阈值,则计算语音识别的置信度;若所述语音识别的置信度小于第二预置阈值,则判断出当前业务请求是为集外任务;若所述语音识别的置信度大于或等于第二预置阈值,则判断出当前业务请求是为集内任务。
可以理解的是,所述文本分类的置信度是指当前文字侯选序列表示的语义属于集内的概率。
其中,若当前业务请求是为集内任务,则可认为是可以响应的任务,当前文本分类可靠;若当前业务请求是为集外任务,则可认为是不可响应的任务,当前文本分类不可靠。
可选地,所述第一判断处理模块405可以包括计算单元;
所述计算单元,用于基于词后验概率WPP的置信度计算方法计算语音识别的置信度;所述基于词后验概率WPP的置信度计算方法计算语音识别的置信度,可以具体包括:获取所述连续语音信号解码得到的字词候选解码路径组成的网络Lattice;根据互信息MI准则及所述字词的逆向文件频率IDF值确认业务关键词;基于以下公式计算关键词声学置信度:p(w|lattice)=Φ(w)Ψ(w)p(w)/p(lattice);公式中,Φ(w)为该关键词的前向概率,Ψ(w)为该关键词的后向概率,p(w)为该关键词本身的概率;其中p(w)=p(ac)αp(lm)β,p(ac)表示解码的声学概率,p(lm)表示语言模型概率,α和β分别表示声学和语言的规整Scaling因子,p(lattice)表示整个Lattice中所有路径path的概率和;根据所有关键词声学置信度的平均值确认语音识别的置信度。
可以理解的是,相比于基于路径后验概率计算的置信度方法,基于关键词后验概率计算的方法可以去除其它词的置信度干扰,提高准确性。
一般来说,声学置信度很低的语音识别错误的可能性较大,对此系统将其判为集外任务,由集外处理流程对识别结果继续处理。通常为了避免将可处理的集内任务错误丢弃为集外任务,声学置信度域值(即第二预置阈值)通常会设置为较小的数值。
可以理解的是,通过引入语音识别置信度信息,对预判定为集内任务的分类结果进一步确认,避免了传统系统中存在的由于识别错误导致的分类错误及错误的呼叫响应,提高准确性和用户体验。
由上述描述可知,本发明实施例提供的基于语音呼叫的业务流程实现系统,在接收到用于业务请求的连续语音信号后,将其转换为文字候选序列,并确定对应的业务类型,根据确定的业务类型,指引执行与所述业务类型相应的业务流程,提高了语音业务指引的准确性和有效性,避免了过多错误指引给用户带来的困扰,提高业务流程实现的智能性和人机交互的自然性。
可选地,本发明实施例提供的基于语音呼叫的业务流程实现方法,不同于传统系统的简单响应措施,对集内任务直接呼叫转移,而对集外任务直接拒绝,并返回无法支持的结果;本发明实施例提出了一种更为人性智能的响应机制,分别对集外任务采用智能引导方式以帮助用户熟悉系统应用,以及对集内任务的高准确认。
对于集内任务的引导,所述基于语音呼叫的业务流程实现系统还可以包括第二判断处理模块407,可参考图5,图5为本发明实施例提供的基于语音呼叫的业务流程实现系统的另一结构示意图;
其中,所述第二判断处理模块407,用于第一判断处理模块405判断出当前业务请求是为集内任务之后,判断所述语音识别的置信度是否大于或等于第三预置阈值,所述第三预置阈值大于所述第二预置阈值;若所述语音识别的置信度大于或等于第三预置阈值,则触发根据所述文本分类确定所述文字候选序列对应的业务类型的动作;若所述语音识别的置信度小于第三预置阈值,则向请求用户设备确认语音识别结果是否正确;若所述语音识别结果正确,则触发根据所述文本分类确定所述文字候选序列对应的业务类型的动作;若所述语音识别结果不正确,则对判断出当前业务请求是为集内任务的判断结果进行修正。
在该实施方式中,系统通过进一步设置某一具有较大数值的声学置信度域值(即第三预置阈值),以确保进入业务转移的输入具有较大的可信度,以实现更准确的业务响应。一般来说,对于声学置信度很高的语音识别结果,其错误的可能性极小,因而可以直接接收;而对于声学置信度在两个门限之间的语音,有一定的概率发生识别错误,本案向用户进一步征询,获取确认信息,以避免集内正确识别被“丢弃”从而影响集内的正确率。根据用户“确认”结果,执行触发根据所述文本分类确定所述文字候选序列对应的业务类型的动作,或者对判断出当前业务请求是为集内任务的判断结果进行修正;
可以理解的是,所述集内任务引导处理的方法主要实现了对预判断为集内任务的输入的纠错和确认,特别是由于语音识别错误导致的分类错误,提高了传统系统对集内任务执行的准确率。
另容易想到的是,在业务转移中,可能由于用户语音输入存在歧义,导致存在两个或以上的业务分类。对此,系统还可以引入消歧策略,根据文本置信度自动选择或由系统向客户提出合适的问题以进一步确认信息,提高集内任务正确的可能。比如对用户输入“我要查一下交易明细”的业务请求,系统分类结果可能包括“账户交易明细”和“外汇交易明细”两个业务选项。歧义消除策略指引根据该业务选项向客户请求确认,等待客户反馈后重新进入业务流程。
进一步地,对于集外任务的引导,可一并参看图5,所述基于语音呼叫的业务流程实现系统还可以包括第三判断处理模块408;
所述第三判断处理模块408,用于计算当前业务请求对应的声学置信度;判断所述声学置信度是否大于或等于第四预置阈值;若所述声学置信度小于第四预置阈值,则对当前业务请求进行噪音原因分析;若所述声学置信度大于或等于第四预置阈值,则计算当前文本候选序列文本的集外任务置信度,并判断当前文字候选序列文本的集外任务置信度是否大于或等于第五预置阈值;若当前文字候选序列文本的集外任务置信度大于或等于第五预置阈值,则向人工服务台转入该业务请求;若当前文字候选序列文本的集外任务置信度小于第五预置阈值,则对当前业务请求对应的连续语音信号进行表达方式分析。
可以理解的是,所述声学置信度是指用户语音正确识别成当前文字侯选序列的概率。
其中,所述第三判断处理模块408判断当前文字候选序列文本的集外任务置信度是否大于或等于第五预置阈值,主要用于解决某些识别结果可信,但可能为系统范围外业务的输入。具体的,本发明可以采用各种分类器,如基于多类向量机支持向量机SVM分类器的集外文本导航技术,对常见的集外业务及闲聊类语音进行文本分类。可选的,集外文本置信度可以采用文本分类器第一候选的后验概率作为置信度。
若当前文字候选序列文本的集外任务置信度大于或等于第五预置阈值,则向人工服务台转入该业务请求;可选的,可以直接向人工客服提供原始录入的语音,避免用户重复输入。进一步的,还可以对用户输入的集外业务请求进行类别分类,将其转入更专业的客服,以提高处理效率。若当前文字候选序列文本的集外任务置信度小于第五预置阈值,则对当前业务请求对应的连续语音信号进行表达方式分析;例如:判断其输入字符串长度是否超过预设域值,或者无意义语音是否过多等等。对此,本发明可以提供特定引导词,要求用户按照正常方式简短输入语音命令。
可以理解的是,所述集外任务引导处理的方法主要对集外正确拒识的部分进行智能的分类处理,并给出不同的提示音引导。其中,可主要采用基于声学置信度与集外文本导航两种技术的结合,即如果声学置信度门限较低,认为输入为非语音的可能性较大;如果声学置信度门限较高,认为输入为语音的可能性且识别正确的可能性较大,继而进一步采用集外文本导航,区分无法进行导航的原因,并进行相应引导。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统以及系统中的模块单元的具体工作过程,可以参考前述基于语音呼叫的业务流程实现方法实施例中的对应过程,在此不再赘述。
由上述描述可知,本发明实施例提供的基于语音呼叫的业务流程实现系统,在接收到用于业务请求的连续语音信号后,将其转换为文字候选序列,并确定对应的业务类型,根据确定的业务类型,指引执行与所述业务类型相应的业务流程,提高了语音业务指引的准确性和有效性,避免了过多错误指引给用户带来的困扰,提高业务流程实现的智能性和人机交互的自然性。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上对本发明所提供的一种基于语音呼叫的业务流程实现方法及系统进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。