CN114143401A - 一种电话客服应答适配方法和装置 - Google Patents
一种电话客服应答适配方法和装置 Download PDFInfo
- Publication number
- CN114143401A CN114143401A CN202111405708.1A CN202111405708A CN114143401A CN 114143401 A CN114143401 A CN 114143401A CN 202111405708 A CN202111405708 A CN 202111405708A CN 114143401 A CN114143401 A CN 114143401A
- Authority
- CN
- China
- Prior art keywords
- media resource
- voice
- server
- resource server
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004044 response Effects 0.000 title claims abstract description 173
- 238000000034 method Methods 0.000 title claims abstract description 143
- 230000006978 adaptation Effects 0.000 title description 111
- 238000004590 computer program Methods 0.000 claims description 53
- 230000002457 bidirectional effect Effects 0.000 claims description 17
- 238000012544 monitoring process Methods 0.000 claims description 15
- 238000003860 storage Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 abstract description 69
- 230000015572 biosynthetic process Effects 0.000 abstract description 38
- 238000003786 synthesis reaction Methods 0.000 abstract description 38
- 230000006854 communication Effects 0.000 description 31
- 238000004891 communication Methods 0.000 description 29
- 238000011161 development Methods 0.000 description 27
- 230000008569 process Effects 0.000 description 25
- 230000003993 interaction Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 16
- 238000013507 mapping Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 14
- 238000012986 modification Methods 0.000 description 14
- 230000004048 modification Effects 0.000 description 14
- 238000003058 natural language processing Methods 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 10
- 238000012790 confirmation Methods 0.000 description 9
- 230000002452 interceptive effect Effects 0.000 description 9
- 238000005520 cutting process Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 241001672694 Citrus reticulata Species 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 206010011878 Deafness Diseases 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008846 dynamic interplay Effects 0.000 description 1
- 230000010370 hearing loss Effects 0.000 description 1
- 231100000888 hearing loss Toxicity 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/527—Centralised call answering arrangements not requiring operator intervention
Abstract
本发明提供了一种电话客服应答适配方法和装置,属于智能服务技术领域,该方法包括:接收媒体资源服务器发送的用户表述语音文件,确定服务场景;将用户表述语音文件转发至智能语音产品服务器;接收智能语音产品服务器根据用户表述语音文件对应生成的回复语音文件;调整回复语音文件的语音参数,得到匹配服务场景的回复语音文件,发送至媒体资源服务器,以供媒体资源服务器通过用户前端向用户播放该匹配服务场景的回复语音文件。本发明通过在媒体资源服务器与智能语音服务器之间传递数据时调整回复语音文件的语音参数,得到匹配服务场景的回复语音文件,达到控制语音合成效果的目的。从而针对不同服务场景下提供贴切的客服语音,提升客服业务效果。
Description
技术领域
本发明涉及智能服务技术领域,尤其涉及一种电话客服应答适配方法和装置。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
随着人工智能技术的发展,基于智能语音识别、语音合成和自然语言处理等技术构建的客服应答机器人得到了广泛应用,在智能导航、智能外呼、智能呼入等客服领域各显神通,节省了大量的人力。
这种电话客服应答系统的核心模块有媒体资源服务器和语音产品服务器,语音产品服务器负责识别用户所说的话合成为语音;媒体资源服务器负责把用户的所说的话传送给语音产品服务器,把语音产品服务器合成的语音播放给用户听。所以,用户接触系统的第一触角是媒体资源服务器所展示的客服机器人的声音,这个声音的友好度直接影响用户对系统的印象,甚至影响功能流程的准确性。
语音产品服务器提供了语速、音量、音色等各种参数设置实时通话过程中语音合成的效果,提高客服应答声音的亲和力;但是,由于技术路线开发程度不同的原因,媒体资源服务器一般是通信厂商研发,语音产品服务器由人工智能厂商研发,两者的融合缺乏天然的灵活性。现有的某通信商研发的媒体资源服务器只能提前设置音色参数,一旦启动,服务过程中无法动态调整参数来改变应答客服的声音,于是造成了诸多业务痛点:音色单一,所有租户、所有场景都只能公用一个音色,例如营销场景、催收场景,如果设置的音色很温柔,适用于营销场景,但是催收场景下却不够严肃有力;音量单一,所有服务都只能公用一个音量,如果设置音量大小适中,适合青年用户,但对听力下降的老年用户不友好;语速单一,对所有服务只能公用一个语速,一个语速可能适合青年用户,但是对于理解能力降低、听力下降的老年用户可能较快,无法准确接收信息。
因此,如何提供一种新的方案,其能够解决上述技术问题是本领域亟待解决的技术难题。
发明内容
本发明实施例提供一种电话客服应答适配方法,突破媒体资源服务器与智能语音服务器的直接交互关系,通过在媒体资源服务器与智能语音服务器之间传递数据时调整回复语音文件的语音参数,得到匹配服务场景的回复语音文件,达到控制语音合成效果的目的,从而针对不同服务场景下提供贴切的客服语音,辅助提升客服业务效果,该方法包括:
接收媒体资源服务器发送的用户表述语音文件,确定服务场景;
将用户表述语音文件转发至智能语音产品服务器;
接收智能语音产品服务器根据用户表述语音文件对应生成的回复语音文件;
调整回复语音文件的语音参数,得到匹配服务场景的回复语音文件,发送至媒体资源服务器,以供媒体资源服务器通过用户前端向用户播放该匹配服务场景的回复语音文件。
具体实施本发明实施例提供的一种电话客服应答适配方法时,在一个实施例中,在接收媒体资源服务器发送的用户表述语音文件之前,还包括:
接收媒体资源服务器发送的连接请求,构建与媒体资源服务器的连接通道;
根据媒体资源服务器发送的连接请求,与智能语音产品服务器进行主动连接,构建与智能语音产品服务器的连接通道;
根据与媒体资源服务器的连接通道以及与智能语音产品服务器的连接通道,分别与媒体资源服务器的连接通道和智能语音产品服务器进行双向握手。
具体实施本发明实施例提供的一种电话客服应答适配方法时,在一个实施例中,接收媒体资源服务器发送的连接请求,构建与媒体资源服务器的连接通道,包括:
建立对媒体资源服务器的TCP监听,在监听到媒体资源服务器发送连接请求时,接收所述媒体资源服务器的连接请求,根据所述媒体资源服务器的连接请求构建与媒体资源服务器的TCP连接通道。
具体实施本发明实施例提供的一种电话客服应答适配方法时,在一个实施例中,根据媒体资源服务器发送的连接请求,与智能语音产品服务器进行主动连接,构建与智能语音产品服务器的连接通道,包括:
根据媒体资源服务器发送的连接请求,与智能语音产品服务器进行主动连接,建立与智能语音产品服务器的TCP连接,构建与智能语音产品服务器的TCP连接通道。
具体实施本发明实施例提供的一种电话客服应答适配方法时,在一个实施例中,根据与媒体资源服务器的连接通道以及与智能语音产品服务器的连接通道,分别与媒体资源服务器的连接通道和智能语音产品服务器进行双向握手,包括:
利用与媒体资源服务器的连接通道,接收媒体资源服务器发来的握手请求消息报文,从握手请求消息报文解析获取握手关键字段,将握手请求消息报文利用与智能语音产品服务器的连接通道转发至智能语音产品服务器;
利用与智能语音产品服务器的连接通道,接收智能语音产品服务器针对握手请求消息报文对应生成的响应消息报文,根据握手关键字段确定响应消息报文所匹配的媒体资源服务器,利用与媒体资源服务器的连接通道,将响应消息报文转发至对应的媒体资源服务器;
利用与媒体资源服务器的连接通道,接收媒体资源服务器针对响应消息报文对应生成的回应消息报文,将回应消息报文利用与智能语音产品服务器的连接通道转发至生成响应消息报文的智能语音产品服务器。
具体实施本发明实施例提供的一种电话客服应答适配方法时,在一个实施例中,接收媒体资源服务器发送的用户表述语音文件,确定服务场景,包括:
接收媒体资源服务器发送的用户表述语音文件,对语音表述文件进行解析得到用户表述语音文件的服务场景。
具体实施本发明实施例提供的一种电话客服应答适配方法时,在一个实施例中,还包括:根据用户表述语音文件的服务场景,解析得到服务场景数据;其中,所述服务场景数据,包括:场景参数,用户群体参数;
回复语音文件的语音参数,包括:回复语音文件的MRCP控制报文;
调整回复语音文件的语音参数,得到匹配服务场景的回复语音文件,包括:
根据场景参数和用户群体参数,调整回复语音文件的MRCP控制报文,以使回复语音文件的音色、音量、语速、音库和声音形变匹配服务场景,得到匹配服务场景的回复语音文件。
本发明实施例还提供一种电话客服应答适配装置,包括:
用户表述语音文件接收模块,用于接收媒体资源服务器发送的用户表述语音文件,确定服务场景;
用户表述语音文件转发模块,用于将用户表述语音文件转发至智能语音产品服务器;
回复语音文件接收模块,用于接收智能语音产品服务器根据用户表述语音文件对应生成的回复语音文件;
语音参数调整匹配模块,用于调整回复语音文件的语音参数,得到匹配服务场景的回复语音文件,发送至媒体资源服务器,以供媒体资源服务器通过用户前端向用户播放该匹配服务场景的回复语音文件。
具体实施本发明实施提供的一种电话客服应答适配装置时,在一个实施例中,还包括双向握手模块,用于:
接收媒体资源服务器发送的连接请求,构建与媒体资源服务器的连接通道;
根据媒体资源服务器发送的连接请求,与智能语音产品服务器进行主动连接,构建与智能语音产品服务器的连接通道;
根据与媒体资源服务器的连接通道以及与智能语音产品服务器的连接通道,分别与媒体资源服务器的连接通道和智能语音产品服务器进行双向握手。
具体实施本发明实施提供的一种电话客服应答适配装置时,在一个实施例中,双向握手模块,还用于:
建立对媒体资源服务器的TCP监听,在监听到媒体资源服务器发送连接请求时,接收所述媒体资源服务器的连接请求,根据所述媒体资源服务器的连接请求构建与媒体资源服务器的TCP连接通道。
具体实施本发明实施提供的一种电话客服应答适配装置时,在一个实施例中,双向握手模块,还用于:
根据媒体资源服务器发送的连接请求,与智能语音产品服务器进行主动连接,建立与智能语音产品服务器的TCP连接,构建与智能语音产品服务器的TCP连接通道。
具体实施本发明实施提供的一种电话客服应答适配装置时,在一个实施例中,双向握手模块,还用于:
利用与媒体资源服务器的连接通道,接收媒体资源服务器发来的握手请求消息报文,从握手请求消息报文解析获取握手关键字段,将握手请求消息报文利用与智能语音产品服务器的连接通道转发至智能语音产品服务器;
利用与智能语音产品服务器的连接通道,接收智能语音产品服务器针对握手请求消息报文对应生成的响应消息报文,根据握手关键字段确定响应消息报文所匹配的媒体资源服务器,利用与媒体资源服务器的连接通道,将响应消息报文转发至对应的媒体资源服务器;
利用与媒体资源服务器的连接通道,接收媒体资源服务器针对响应消息报文对应生成的回应消息报文,将回应消息报文利用与智能语音产品服务器的连接通道转发至生成响应消息报文的智能语音产品服务器。
具体实施本发明实施提供的一种电话客服应答适配装置时,在一个实施例中,用户表述语音文件接收模块,具体用于:
接收媒体资源服务器发送的用户表述语音文件,对语音表述文件进行解析得到用户表述语音文件的服务场景。
具体实施本发明实施提供的一种电话客服应答适配装置时,在一个实施例中,用户表述语音文件接收模块,还用于:根据用户表述语音文件的服务场景,解析得到服务场景数据;其中,所述服务场景数据,包括:场景参数,用户群体参数;
回复语音文件的语音参数,包括:回复语音文件的MRCP控制报文;
语音参数调整匹配模块,具体用于:
根据场景参数和用户群体参数,调整回复语音文件的MRCP控制报文,以使回复语音文件的音色、音量、语速、音库和声音形变匹配服务场景,得到匹配服务场景的回复语音文件。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种电话客服应答适配方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述一种电话客服应答适配方法。
本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述一种电话客服应答适配方法。
本发明实施例提供的一种电话客服应答适配和装置,包括:接收媒体资源服务器发送的用户表述语音文件,确定服务场景;将用户表述语音文件转发至智能语音产品服务器;接收智能语音产品服务器根据用户表述语音文件对应生成的回复语音文件;调整回复语音文件的语音参数,得到匹配服务场景的回复语音文件,发送至媒体资源服务器,以供媒体资源服务器通过用户前端向用户播放该匹配服务场景的回复语音文件。本发明在媒体资源服务器和语音产品服务器之间进行数据转发,针对不同服务场景及用户群体,通过调整回复语音文件的语音参数改变语音合成效果,打造“千人千面”的客服应答声音。本发明突破媒体资源服务器与智能语音服务的直接交互关系,通过在媒体资源服务器与智能语音服务器之间传递数据时调整回复语音文件的语音参数,得到服务场景对应的回复语音文件,达到控制语音合成效果的目的,从而针对不同服务场景、不同客户群体提供贴切的客服音,辅助提升客服业务效果。在实时电话客服应答场景中,打破单一的客服机器人发音模式,达到根据服务场景及客户群体不同,动态选择最适合的发音模式,打造“千人千面”的客服声,以提升用户体验和业务效果。本发明可以提高客服系统扩展性,本发明的基础是在媒体资源服务器和智能语音产品服务器之间增加了适配服务场景的语音参数修改功能,虽然媒体资源服务器由于平台庞大,未能与时俱进迭代升级,但是可以通过对回复语音文件的语音参数进行调整,以达到提升业务效果的目的。同时,能紧跟智能语音产品服务器的飞速发展,使用更多的新的扩展参数,充分享受智能语音产品服务器的发展红利;本发明可以提高客服系统灵活性,媒体资源服务器不但支持的参数少,而且不能动态修改,一旦服务启动,就无法修改,只能重启修改。在需求日益多样性的背景下,这种固化“一刀切”的方式完全无法满足业务要求,限制业务发展。本发明通过适配调整回复语音文件中的语音参数,支持服务过程中参数的动态调整,非常灵活;最后,本发明可以提升业务效果,基于以上扩展性和灵活性,可以对每个服务场景及每一用户、甚至每通电话的个性化参数调整,有的放矢地打造最适宜本场景及本用户的智能客服应答发音。对于电话渠道,声音是影响用户体验的直接因素,合适的发音有助于提升沟通效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例一种电话客服应答适配方法示意图。
图2为本发明实施例一种电话客服应答适配方法的数据交互流程图。
图3为本发明实施例一种电话客服应答适配方法的时序图。
图4为本发明实施例一种电话客服应答适配装置示意图。
图5为运行本发明实施的一种电话客服应答适配方法的计算机装置示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
本发明属于智能服务技术领域。图1为本发明实施例一种电话客服应答适配方法示意图,如图1所示,本发明实施例提供一种电话客服应答适配方法,突破媒体资源服务器与智能语音服务器的直接交互关系,通过在媒体资源服务器与智能语音服务器之间传递数据时调整回复语音文件的语音参数,得到匹配服务场景的回复语音文件,达到控制语音合成效果的目的,从而针对不同服务场景下提供贴切的客服语音,辅助提升客服业务效果,该方法包括:
步骤101:接收媒体资源服务器发送的用户表述语音文件,确定服务场景;
步骤102:将用户表述语音文件转发至智能语音产品服务器;
步骤103:接收智能语音产品服务器根据用户表述语音文件对应生成的回复语音文件;
步骤104:调整回复语音文件的语音参数,得到匹配服务场景的回复语音文件,发送至媒体资源服务器,以供媒体资源服务器通过用户前端向用户播放该匹配服务场景的回复语音文件。
本发明实施例提供的一种电话客服应答适配,包括:接收媒体资源服务器发送的用户表述语音文件,确定服务场景;将用户表述语音文件转发至智能语音产品服务器;接收智能语音产品服务器根据用户表述语音文件对应生成的回复语音文件;调整回复语音文件的语音参数,得到匹配服务场景的回复语音文件,发送至媒体资源服务器,以供媒体资源服务器通过用户前端向用户播放该匹配服务场景的回复语音文件。本发明在媒体资源服务器和语音产品服务器之间进行数据转发,针对不同服务场景及用户群体,通过调整回复语音文件的语音参数改变语音合成效果,打造“千人千面”的客服应答声音。本发明突破媒体资源服务器与智能语音服务的直接交互关系,通过在媒体资源服务器与智能语音服务器之间传递数据时调整回复语音文件的语音参数,得到服务场景对应的回复语音文件,达到控制语音合成效果的目的,从而针对不同服务场景、不同客户群体提供贴切的客服音,辅助提升客服业务效果。在实时电话客服应答场景中,打破单一的客服机器人发音模式,达到根据服务场景及客户群体不同,动态选择最适合的发音模式,打造“千人千面”的客服声,以提升用户体验和业务效果。本发明可以提高客服系统扩展性,本发明的基础是在媒体资源服务器和智能语音产品服务器之间增加了适配服务场景的语音参数修改功能,虽然媒体资源服务器由于平台庞大,未能与时俱进迭代升级,但是可以通过对回复语音文件的语音参数进行调整,以达到提升业务效果的目的。同时,能紧跟智能语音产品服务器的飞速发展,使用更多的新的扩展参数,充分享受智能语音产品服务器的发展红利;本发明可以提高客服系统灵活性,媒体资源服务器不但支持的参数少,而且不能动态修改,一旦服务启动,就无法修改,只能重启修改。在需求日益多样性的背景下,这种固化“一刀切”的方式完全无法满足业务要求,限制业务发展。本发明通过适配调整回复语音文件中的语音参数,支持服务过程中参数的动态调整,非常灵活;最后,本发明可以提升业务效果,基于以上扩展性和灵活性,可以对每个服务场景及每一用户、甚至每通电话的个性化参数调整,有的放矢地打造最适宜本场景及本用户的智能客服应答发音。对于电话渠道,声音是影响用户体验的直接因素,合适的发音有助于提升沟通效果。
在本发明实施例中,设计的专业词汇释义如下:
MRCP:媒体资源控制协议(Media Resource Control Protocol)是一种计算机网络应用层的通讯协议,用于语音服务器向客户端提供各种语音服务(如语音识别、语音合成、声纹识别等)。
媒体资源服务器:该设备在控制设备(软交换设备、应用服务器)的控制下,提供在IP网络上实现各种业务所需的媒体资源功能,包括业务音提供、会议、交互式应答(IVR)、通知、高级语言业务等。
ASR:自动语音识别技术(Automatic Speech Recognition),是一种将人的语音转换为文本的技术。
TTS:语音合成技术(Text To Speech),是一种将文本转换为语音的技术。
NLP:自然语言处理(Natural Language Processing)是一门集语言学,数学及计算机科学于一体的科学。它的核心目标就是把人的自然语言转换为计算机可以阅读的指令,简单来说就是让机器读懂人的语言。
随着人工智能技术的发展,基于ASR、TTS、NLP构建的客服机器人得到广泛应用。其中,客服机器人的基本交互场景是:用户的语音通过媒体资源服务器传送到智能语音产品服务器,智能语音产品服务器利用ASR技术把用户语音转化为文字,然后送NLP理解用户意图,系统根据用户意图确定回复话术,智能语音产品服务器利用TTS技术把回复话术转化为语音,传输到媒体资源服务器,然后播放给用户听。媒体资源服务器与智能语音产品服务器之间通过MRCP协议控制ASR、TTS的交互过程,通过RTP协议传输语音流。与本发明相关的TTS请求中,通过MRCP协议报文,除了可以控制TTS交互的发起、中断、结束之外,还可以控制合成的语音效果,如音色(可理解为“嗓音”)、音量、语速、年龄等。可以设想,通过灵活设置不同的音色、音量、语速等参数,从用户听觉角度来说,可以变换成发音不同的客服机器人。
由于媒体资源服务器与智能语音产品服务器由不同类型的厂商开发,两者融合缺乏天然的灵活性。两个重要模块的交互产生了诸多问题:
首先是扩展性差。媒体资源服务器厂商仅提供有限的MRCP协议参数设置,而人工智能技术日新月异,衍生的功能日渐丰富,媒体资源服务器厂商的升级速度较慢。进而出现智能语音产品服务器提供了功能,但是受限于媒体资源服务器,难以充分释放功能;然后是动态交互能力弱。MRCP协议参数设置仅支持配置文件输入,未预留系统动态交易入口。进而导致参数变更涉及生产变更和服务重启,时效性差;还有就是业务应用受限。基于以上缺点,给业务应用造成诸多限制。如与本发明相关的语音合成场景,不管是什么客服场景(如信用卡催收、客户关怀)、不管是什么客户群体(如老年客户、中青年客户),都只能“一刀切”的采用一个发音,无法“因地制宜”采用合适的音色、语速、音量、性别等,对应用功能会造成一定的影响。
针对上述缺点,本发明旨在突破媒体资源服务器与智能语音服务的直接交互关系,在两者之间添加适配层,通过接收应用系统动态参数,修改MRCP协议报文参数,控制TTS语音合成效果。从而针对不同应用场景、不同客户群体提供贴切的客服音,辅助提升客服业务效果。
下面具体介绍应用于本发明实施例一种电话客服应答适配方法的适配层,具体的,本发明实施例还提供一电话客服应答系统,本发明实施例所提供的一种电话客服应答适配方法应用于适配层中;该系统主要包括:
媒体资源服务器,用于接收用户表述语音;所述用户表述语音为应用前端根据服务场景发起外呼任务而接收到用户的反馈语音;将回复语音文件反馈至用户前端;所述用户前端用于播放回复语音文件;根据用户表述语音文件,确定服务场景;
应用本发明实施例所提供的一种电话客服应答适配方法预先建立的适配层,用于将用户表述语音文件转发至智能语音产品服务器;接收智能语音产品服务器根据用户表述语音文件对应生成的回复语音文件;调整回复语音文件的语音参数,得到匹配服务场景的回复语音文件,发送至媒体资源服务器;具体的可以将用户表述语音转发至智能语音产品服务器;根据所述服务场景,调整回复语音文件中的语音参数,得到服务场景对应的回复语音文件;将回复语音文件发送至媒体资源服务器;
智能语音产品服务器,用于识别用户表述语音,得到用户表述语音对应的文本信息;根据用户表述语音对应的文本信息,以及预先建立的文本信息与回复话术文本之间的映射关系,得到用户表述语音对应的回复话术文本;将用户表述语音对应的回复话术文本转换为回复语音文件;将回复语音文件发送至所述适配层。
图2为本发明实施例一种电话客服应答适配方法的数据交互流程图,如图2所示,具体实施本发明实施例提供的一种电话客服应答适配方法时,在一个实施例中,该方法应用于电话客服机器人在不同服务场景下的个性化应答,具体可以包括:
接收媒体资源服务器发送的用户表述语音文件,确定服务场景;
将用户表述语音文件转发至智能语音产品服务器;
接收智能语音产品服务器根据用户表述语音文件对应生成的回复语音文件;
调整回复语音文件的语音参数,得到匹配服务场景的回复语音文件,发送至媒体资源服务器,以供媒体资源服务器通过用户前端向用户播放该匹配服务场景的回复语音文件。
本发明打造“千人千面”的电话客服应答适配声音,核心基础是动态调整语音合成的参数,而动态调整语音合成参数的核心基础是在媒体资源服务器和智能语音产品服务器之间对回复语音文件的语音参数进行调整。
具体实施本发明实施例提供的一种电话客服应答适配方法时,在一个实施例中,媒体资源服务器接收用户表述语音之前,还包括:
应用前端根据服务场景,向用户发起外呼任务,向用户播放服务语音;
接收用户听到服务语音而反馈的用户表述语音至应用前端,由应用前端转发至媒体资源服务器。
实施例中,应用前端连接媒体资源服务器,主要用于根据服务场景,向用户发起外呼任务,向用户播放服务语音;启动外呼任务时,开场白话术需要语音合成,因此向用户播放服务语音需要由应用前端调起媒体资源服务器,生成向用户播放的语音;接收用户听到服务语音而反馈的用户表述语音至应用前端,由应用前端转发至媒体资源服务器。
具体实施本发明实施例提供的一种电话客服应答适配方法时,在一个实施例中,在接收媒体资源服务器发送的用户表述语音文件之前,还包括:
接收媒体资源服务器发送的连接请求,构建与媒体资源服务器的连接通道;
根据媒体资源服务器发送的连接请求,与智能语音产品服务器进行主动连接,构建与智能语音产品服务器的连接通道;
根据与媒体资源服务器的连接通道以及与智能语音产品服务器的连接通道,分别与媒体资源服务器的连接通道和智能语音产品服务器进行双向握手。
实施例中,在接收媒体资源服务器发送的用户表述语音文件之前,还需要建立媒体资源服务器和智能语音产品服务器的连接握手关系,具体的过程可以包括:首先接收媒体资源服务器发送的连接请求,构建与媒体资源服务器的连接通道;然后根据媒体资源服务器发送的连接请求,与智能语音产品服务器进行主动连接,构建与智能语音产品服务器的连接通道;最后根据与媒体资源服务器的连接通道以及与智能语音产品服务器的连接通道,分别与媒体资源服务器的连接通道和智能语音产品服务器进行双向握手。在本发明电话客服应答适配系统中,上述建立媒体资源服务器和智能语音产品服务器的连接握手关系,可以是建立适配层。
具体实施本发明实施例提供的一种电话客服应答适配方法时,在一个实施例中,接收媒体资源服务器发送的连接请求,构建与媒体资源服务器的连接通道,包括:
建立对媒体资源服务器的TCP监听,在监听到媒体资源服务器发送连接请求时,接收所述媒体资源服务器的连接请求,根据所述媒体资源服务器的连接请求构建与媒体资源服务器的TCP连接通道。
具体实施本发明实施例提供的一种电话客服应答适配方法时,在一个实施例中,根据媒体资源服务器发送的连接请求,与智能语音产品服务器进行主动连接,构建与智能语音产品服务器的连接通道,包括:
根据媒体资源服务器发送的连接请求,与智能语音产品服务器进行主动连接,建立与智能语音产品服务器的TCP连接,构建与智能语音产品服务器的TCP连接通道。
实施例中,建立TCP监听,接收媒体资源服务器的连接请求,主动与智能语音产品服务器建立TCP监听,构建媒体资源服务器和智能语音产品服务器之间的TCP通信通道;建立RTP协议;所示RTP协议用于媒体资源服务器与智能语音产品服务器之间语音流的传输。
建立媒体资源服务器和智能语音产品服务器的连接握手关系,是支撑本发明实施例实现客服应答的关键部分,串联媒体资源服务器和智能语音产品服务器。上述双向握手过程中,既要建立TCP监听,接收媒体资源服务器的连接请求;又要主动与智能语音产品服务器建立TCP连接。这样三个模块打通TCP通信通道,在握手阶段,双向转发SIP、SDP握手协商报文;在服务阶段,双向转发MRCP控制报文,控制ASR、TTS的交互流程。同时,要建立UDP监听,接收媒体资源服务器的连接请求;又要主动与智能语音产品服务器建立UDP连接。利用RTP协议,在ASR服务阶段,转发媒体资源服务器传输的用户语音流到智能语音产品服务器;在TTS服务阶段,转发智能语音产品服务器合成的回复话术语音流到媒体资源服务器。进一步的,还有路由适配,用于同时连接多个厂商的智能语音产品服务器的场景,此处不作展开表述。适配层有了以上基础,开发了打造“千人千面”客服机器人的语音适配器。在接收到媒体资源服务器TTS请求时,通过应用系统甄别的此通电话的用户群体、应用场景等条件,修改MRCP报文的若干字段,达到控制语音合成效果的目的。
图3为本发明实施例一种电话客服应答适配方法的时序图,如图3所示,具体实施本发明实施例提供的一种电话客服应答适配方法时,在一个实施例中,根据与媒体资源服务器的连接通道以及与智能语音产品服务器的连接通道,分别与媒体资源服务器的连接通道和智能语音产品服务器进行双向握手,包括:
利用与媒体资源服务器的连接通道,接收媒体资源服务器发来的握手请求消息报文,从握手请求消息报文解析获取握手关键字段,将握手请求消息报文利用与智能语音产品服务器的连接通道转发至智能语音产品服务器;
利用与智能语音产品服务器的连接通道,接收智能语音产品服务器针对握手请求消息报文对应生成的响应消息报文,根据握手关键字段确定响应消息报文所匹配的媒体资源服务器,利用与媒体资源服务器的连接通道,将响应消息报文转发至对应的媒体资源服务器;
利用与媒体资源服务器的连接通道,接收媒体资源服务器针对响应消息报文对应生成的回应消息报文,将回应消息报文利用与智能语音产品服务器的连接通道转发至生成响应消息报文的智能语音产品服务器。
实施例中,分别与媒体资源服务器的连接通道和智能语音产品服务器进行双向握手的过程,主要包括:
利用与媒体资源服务器的连接通道,接收媒体资源服务器发来的握手请求消息报文,从握手请求消息报文解析获取握手关键字段,将握手请求消息报文利用与智能语音产品服务器的连接通道转发至智能语音产品服务器;其中,握手关键字段,包括:呼叫ID及其与媒体资源服务器IP地址的映射关系;
利用与智能语音产品服务器的连接通道,接收智能语音产品服务器针对握手请求消息报文对应生成的响应消息报文,根据握手关键字段确定响应消息报文所匹配的媒体资源服务器,利用与媒体资源服务器的连接通道,将响应消息报文转发至对应的媒体资源服务器;响应消息报文,可以包括:握手试探消息或握手确认消息;
当返回握手试探消息至适配层时,适配层解析握手试探消息,获取呼叫ID;适配层根据呼叫ID与媒体资源服务器IP地址的映射关系,确定媒体资源服务器地址IP地址,根据媒体资源服务器地址IP地址,将握手试探消息转发至对应媒体资源服务器;
当返回握手确认消息至适配层时,适配层解析握手确认消息,获取呼叫ID、MRCP会话通道和智能语音产品服务器UDP通信端口;适配层根据呼叫ID,根据呼叫ID与媒体资源服务器IP地址的映射关系,确定媒体资源服务器地址IP地址,根据媒体资源服务器地址IP地址,将握手确认消息转发至对应媒体资源服务器;适配层创建接收端,监听智能语音产品服务器UDP通信端口,用于利用RTP协议在媒体资源服务器与智能语音产品服务器之间进行语音流的传输;
利用与媒体资源服务器的连接通道,接收媒体资源服务器针对响应消息报文对应生成的回应消息报文,将回应消息报文利用与智能语音产品服务器的连接通道转发至生成响应消息报文的智能语音产品服务器。
具体的,上述双向握手过程应用于一种电话客服应答适配系统时,主要包括:
媒体资源服务器发送握手请求消息INVITE至适配层;然后,适配层解析握手请求消息INVITE,获取握手关键字段,将握手请求消息转发至智能语音产品服务器;其中,握手关键字段,包括:呼叫ID(Call-ID)及其与媒体资源服务器IP地址(ivrIP)的映射关系<Call-ID,ivrIP>;接着,智能语音产品服务器根据握手请求消息INVITE,确定握手试探消息Trying或握手确认消息OK;当返回握手试探消息Trying至适配层时,适配层解析握手试探消息Trying,获取呼叫ID(Call-ID);适配层根据呼叫ID与媒体资源服务器IP地址的映射关系<Call-ID,ivrIP>,确定媒体资源服务器地址IP地址,根据媒体资源服务器地址IP地址,将握手试探消息Trying转发至对应媒体资源服务器;当返回握手确认消息OK至适配层时,适配层解析握手确认消息OK,获取呼叫ID(Call-ID)、MRCP会话通道和智能语音产品服务器UDP通信端口;适配层根据呼叫ID,根据呼叫ID与媒体资源服务器IP地址的映射关系<Call-ID,ivrIP>,确定媒体资源服务器地址IP地址,根据媒体资源服务器地址IP地址,将握手确认消息OK转发至对应媒体资源服务器;适配层创建接收端Socket,监听智能语音产品服务器UDP通信端口(mrcpPort),用于利用RTP协议在媒体资源服务器与智能语音产品服务器之间进行语音流的传输;最后,媒体资源服务器接收到握手试探消息Trying或握手确认消息OK时,对应产生回应消息ACK,通过适配层转发至智能产品服务器,完成对媒体资源服务器和智能语音产品服务器的握手。
具体的,如图3所示,在握手阶段:
步骤1—A—2:媒体资源服务器发送INVITE消息,适配层解析报文,获取关键字段:Call-ID、媒体资源服务器IP地址ivrIP、业务类型resource(语音识别speechrecog或语音合成speechsynth)、媒体资源服务器UDP通信端口ztePort等。然后转发INVITE消息到智能语音产品服务器。
步骤3—B—4:
智能语音产品服务器返回Trying消息时,适配层解析报文,获取Call-ID,根据映射<Call-ID,ivrIP>获取应该返回的媒体资源服务器IP地址,并返回消息;
智能语音产品服务器返回OK消息时,适配层解析报文,获取以下字段:Call-ID、MRCP会话通道channel,智能语音产品服务器UDP通信端口mrcpPort等。适配层要创建接收端socket,监听UDP端口mrcpPort,用于TTS服务阶段向媒体资源服务器传输合成语音流。
步骤5—C—6:媒体资源服务器发送ACK消息,适配层转发到智能语音产品服务器;智能语音产品服务器收到ACK消息后,完成双向握手。
具体实施本发明实施例提供的一种电话客服应答适配方法时,在一个实施例中,接收媒体资源服务器发送的用户表述语音文件,确定服务场景,包括:
接收媒体资源服务器发送的用户表述语音文件,对语音表述文件进行解析得到用户表述语音文件的服务场景。
实施例中,接收的媒体资源服务器发送的用户表述语音文件中,包含了重要的服务场景信息,需要对语音表述文件进行解析得到用户表述语音文件的服务场景,作为后续调整回复语音文件的语音参数的重要依据。
具体实施本发明实施例提供的一种电话客服应答适配方法时,在一个实施例中,智能语音产品服务器根据用户表述语音文件对应生成的回复语音文件,主要过程包括:智能语音产品服务器识别用户表述语音,得到用户表述语音对应的文本信息;根据用户表述语音对应的文本信息,以及预先建立的文本信息与回复话术文本之间的映射关系,得到用户表述语音对应的回复话术文本;将用户表述语音对应的回复话术文本转换为回复语音文件;上述过程具体可以包括:
智能语音产品服务器利用ASR服务识别用户表述语音,得到用户表述语音对应的文本信息;
智能语音产品服务器利用NLP服务对文本信息进行意图理解,确定用户意图文本;
根据预先建立的文本信息与回复话术文本之间的映射关系,匹配用户意图文本,在匹配成功时,确定用户表述语音对应的回复话术文本;其中,匹配过程包括:将用户意图文本与映射关系中的文本信息进行相似度匹配,在相似度达到预设阈值时,判定匹配成功;
智能语音产品服务器利用TTS服务将用户表述语音对应的回复话术文本转换为回复语音文件。
实施例中,在电话客服应答时,能听懂用户的意图并对应回复关联的话术,是智能语音产品服务器所必备的功能,智能语音产品服务器根据用户表述语音得到回复语音文件的全过程,主要包括:首先,智能语音产品服务器利用ASR服务识别用户表述语音,得到用户表述语音对应的文本信息;然后,智能语音产品服务器利用NLP服务对文本信息进行意图理解,确定用户意图文本;接着,根据预先建立的文本信息与回复话术文本之间的映射关系,匹配用户意图文本,在匹配成功时,确定用户表述语音对应的回复话术文本;其中,匹配过程包括:将用户意图文本与映射关系中的文本信息进行相似度匹配,在相似度达到预设阈值时,判定匹配成功;最后,智能语音产品服务器利用TTS服务将用户表述语音对应的回复话术文本转换为回复语音文件。
智能语音产品服务器接收媒体资源服务器请求ASR服务的结果,再把ASR识别结果传输给NLP模块进行意图理解;待NLP模块返回意图后,映射意图对应的系统预设回复话术,最后生成回复语音文件,语音产品提供了语速、音量、音色等各种参数设置实时通话过程中语音合成的效果,可以提高客服机器人声音的亲和力。
智能语音产品服务器,负责处理转发的媒体资源服务器的ASR、TTS请求。与本发明相关的,智能语音产品服务器提供若干音色、音库(如普通话、四川话等)供系统请求使用;提供了一定范围的音量、语速等供系统请求设置参数。如何将上述参数传递至媒体资源服务器,需要通过调整回复语音文件中的语音参数
媒体资源服务器与用户的交互是接收用户的表述语音、连接用户前端播放TTS语音给用户听;与适配层的交互是通过适配层与语音产品服务器进行ASR、TTS通信交互。
具体实施本发明实施例提供的一种电话客服应答适配方法时,在一个实施例中,还包括:根据用户表述语音文件的服务场景,解析得到服务场景数据;其中,所述服务场景数据,包括:场景参数,用户群体参数;
回复语音文件的语音参数,包括:回复语音文件的MRCP控制报文;
调整回复语音文件的语音参数,得到匹配服务场景的回复语音文件,包括:
根据场景参数和用户群体参数,调整回复语音文件的MRCP控制报文,以使回复语音文件的音色、音量、语速、音库和声音形变匹配服务场景,得到匹配服务场景的回复语音文件。
实施例中,在得到用户表述语音文件的服务场景后,需要对其进行解析,解析得到包括场景参数和用户群体参数的服务场景数据;回复语音文件的语音参数,包括:回复语音文件的MRCP控制报文;调整回复语音文件的语音参数,得到匹配服务场景的回复语音文件,具体过程可以包括:根据场景参数和用户群体参数,调整回复语音文件的MRCP控制报文,以使回复语音文件的音色、音量、语速、音库和声音形变匹配服务场景,得到匹配服务场景的回复语音文件。
具体的,在服务阶段,根据所述服务场景,调整回复语音文件中的语音参数,得到服务场景对应的回复语音文件;将回复语音文件发送至媒体资源服务器,具体过程可以包括:首先适配层在服务阶段根据所述服务场景,调整回复语音文件中的语音参数,得到服务场景对应的回复语音文件;其中,语音文件中的语音参数,包括:适配层对媒体资源服务器和智能语音产品服务器双向转发的MRCP控制报文;然后适配层将回复语音文件发送至媒体资源服务器。如图3所示,在TTS服务阶段:
步骤7—D—8—E—9:应用前端启动外呼任务,开场白话术需要语音合成。于是调用媒体资源服务器的交易,触发TTS服务请求。此时,服务媒体资源服务器发送SPEAK消息,适配层在E处收到SPEAK消息,解析参数Vendor-Specific-Parameters,获得场景参数、用户群体参数等,修改或增加音色、音量、语速、音库等参数后,转发到智能语音产品服务器。
步骤10—F—11:
智能语音产品服务器返回IN-PROGRESS消息,适配层转发到媒体资源服务器。
步骤12—G—13
智能语音产品服务器返回SPEAK-COMPLETE消息,适配层转发到媒体资源服务器。至此完成一次TTS交互。
具体实施本发明实施例提供的一种电话客服应答适配方法时,在一个实施例中,适配层在服务阶段根据所述服务场景,调整回复语音文件中的语音参数,得到服务场景对应的回复语音文件,包括:
适配层在服务阶段解析服务场景和用户表述语音,确定服务场景参数和用户群体参数;
根据服务场景参数和用户群体参数,对MRCP控制报文进行调整,以实现对回复语音文件音色、音量、语速、音库和声音形变进行调整,得到服务场景对应的回复语音文件。
实施例中,对回复语音文件中的语音参数进行调整额过程,主要包括:适配层在服务阶段解析服务场景和用户表述语音,确定场景参数和用户群体参数;根据场景参数和用户群体参数,对MRCP控制报文进行调整,以实现对回复语音文件音色、音量、语速、音库和声音形变进行调整,得到服务场景对应的回复语音文件。
具体的,本发明实施例提供一实例来介绍适配层是如何具体通过修改参数控制语音合成效果的。在TTS服务阶段,以某智能语音产品服务器为例,接收到媒体资源服务器的请求后,修改MRCP控制报文的参数详情如下表1所示:
表1
在本发明实施例的一个实例中,场景参数和用户群体参数设置实例如下表2所示:
表2
本发明实施例在实时电话客服机器人场景中,打破业界单一的客服机器人发音模式,达到根据业务场景、客气群体不同,动态选择最适合的发音模式,打造“千人千面”的客服声,以提升用户体验和业务效果。在媒体资源服务器和语音产品之间,基于TCP、UDP通信构建的SIP、SDP、MRCP、RTP协议解析、修改、转发的通信适配层,以及基于适配层动态改变语音合成效果的方法。
首先,提高客服系统扩展性。本发明的基础是在媒体资源服务器和智能语音产品服务器之间增加了适配层。虽然媒体资源服务器由于平台庞大,未能与时俱进迭代升级,但是适配层可以通过与应用系统的参数传递,扩充或修改媒体资源服务器的MRCP报文参数,以达到提升业务效果的目的。同时,能紧跟智能语音产品服务器的飞速发展,使用更多的新的扩展参数,充分享受智能语音产品服务器的发展红利;其次,提高客服系统灵活性。媒体资源服务器不但支持的参数少,而且不能动态修改,一旦服务启动,就无法修改,只能重启修改。在需求日益多样性的背景下,这种固化“一刀切”的方式完全无法满足业务要求,限制业务发展。本发明通过适配层的报文修改转发,支持服务过程中参数的动态调整,非常灵活;最后,提升业务效果。基于以上扩展性和灵活性,我们可以对每个场景、每个用户、甚至每通电话的个性化参数调整,有的放矢地打造最适宜本场景、本用户的智能客服机器人发音。对于电话渠道,声音是影响用户体验的直接因素,合适的发音有助于提升沟通效果,提升业务效果。
本发明打造“千人千面”的客服机器人声音,核心基础是动态调整语音合成的参数,而动态调整语音合成参数的核心基础是在媒体资源服务器和智能语音产品服务器之间添加适配层。本发明在媒体资源服务器和语音产品之间构建适配层,针对不同应用场景及用户群体,通过调整回复语音文件中的语音参数改变语音合成效果,打造“千人千面”的客服机器人声音。本发明突破媒体资源服务器与智能语音服务的直接交互关系,在两者之间添加适配层,调整回复语音文件中的语音参数,得到服务场景对应的回复语音文件,达到控制语音合成效果的目的,从而针对不同应用场景、不同客户群体提供贴切的客服音,辅助提升客服业务效果。在实时电话客服机器人场景中,打破业界单一的客服机器人发音模式,达到根据业务场景、客气群体不同,动态选择最适合的发音模式,打造“千人千面”的客服声,以提升用户体验和业务效果。首先,本发明可以提高客服系统扩展性,本发明的基础是在媒体资源服务器和智能语音产品服务器之间增加了适配层。虽然媒体资源服务器由于平台庞大,未能与时俱进迭代升级,但是适配层可以通过与应用系统的参数传递,调整回复语音文件中的语音参数,以达到提升业务效果的目的。同时,能紧跟智能语音产品服务器的飞速发展,使用更多的新的扩展参数,充分享受智能语音产品服务器的发展红利;其次,本发明可以提高客服系统灵活性,媒体资源服务器不但支持的参数少,而且不能动态修改,一旦服务启动,就无法修改,只能重启修改。在需求日益多样性的背景下,这种固化“一刀切”的方式完全无法满足业务要求,限制业务发展。本发明通过适配层调整回复语音文件中的语音参数,支持服务过程中参数的动态调整,非常灵活;最后,本发明可以提升业务效果,基于以上扩展性和灵活性,可以对每个场景、每个用户、甚至每通电话的个性化参数调整,有的放矢地打造最适宜本场景、本用户的智能客服机器人发音。对于电话渠道,声音是影响用户体验的直接因素,合适的发音有助于提升沟通效果。
本发明实施例在实时电话客服机器人场景中,打破业界单一的客服机器人发音模式,达到根据业务场景、客气群体不同,动态选择最适合的发音模式,打造“千人千面”的客服声,以提升用户体验和业务效果。在媒体资源服务器和语音产品之间,基于TCP、UDP通信构建的SIP、SDP、MRCP、RTP协议解析、修改、转发的通信适配层,以及基于适配层动态改变语音合成效果的方法。
首先,提高客服系统扩展性。本发明的基础是在媒体资源服务器和智能语音产品服务器之间增加了适配层。虽然媒体资源服务器由于平台庞大,未能与时俱进迭代升级,但是适配层可以通过与应用系统的参数传递,扩充或修改媒体资源服务器的MRCP报文参数,以达到提升业务效果的目的。同时,能紧跟智能语音产品服务器的飞速发展,使用更多的新的扩展参数,充分享受智能语音产品服务器的发展红利;其次,提高客服系统灵活性。媒体资源服务器不但支持的参数少,而且不能动态修改,一旦服务启动,就无法修改,只能重启修改。在需求日益多样性的背景下,这种固化“一刀切”的方式完全无法满足业务要求,限制业务发展。本发明通过适配层的报文修改转发,支持服务过程中参数的动态调整,非常灵活;最后,提升业务效果。基于以上扩展性和灵活性,我们可以对每个场景、每个用户、甚至每通电话的个性化参数调整,有的放矢地打造最适宜本场景、本用户的智能客服机器人发音。对于电话渠道,声音是影响用户体验的直接因素,合适的发音有助于提升沟通效果,提升业务效果。
下面结合具体场景,对本发明实施例提供的一种电话客服应答适配装置进行简要描述:
本发明突破媒体资源服务器与智能语音服务的直接交互关系,在两者之间添加适配层,通过接收应用系统动态参数,修改MRCP协议报文参数,控制TTS语音合成效果。从而针对不同应用场景、不同客户群体提供贴切的客服音,辅助提升客服业务效果。
本发明打造“千人千面”的客服机器人声音,核心基础是动态调整语音合成的参数,而动态调整语音合成参数的核心基础是在媒体资源服务器和智能语音产品服务器之间添加适配层。
本发明实施例提供的一种电话客服应答适配装置的组成部分,主要包括:
应用系统主要控制客服流程,以智能外呼为例,如发起外呼任务;另外接收媒体资源服务器请求ASR服务的结果,再把ASR识别结果传输给NLP模块进行意图理解;待NLP模块返回意图后,映射意图对应的系统预设回复话术,然后再通过媒体资源服务器发起TTS请求;
NLP模块主要处理应用系统的意图理解请求;
媒体资源服务器主要串联应用系统、用户和适配层。与应用系统的交互见1;与用户的交互是接收用户的表述语音、播放TTS语音给用户听;与适配层的交互是通过适配层与语音产品进行ASR、TTS通信交互;
适配层是支撑本发明的关键模块,该模块串联媒体资源服务器和智能语音产品服务器。适配层既要建立TCP监听,接收媒体资源服务器的连接请求;又要主动与智能语音产品服务器建立TCP连接。这样三个模块打通TCP通信通道,在握手阶段,适配层双向转发SIP、SDP握手协商报文;在服务阶段,适配层双向转发MRCP控制报文,控制ASR、TTS的交互流程。同时,适配层要建立UDP监听,接收媒体资源服务器的连接请求;又要主动与智能语音产品服务器建立UDP连接。利用RTP协议,在ASR服务阶段,转发媒体资源服务器传输的用户语音流到智能语音产品服务器;在TTS服务阶段,转发智能语音产品服务器合成的回复话术语音流到媒体资源服务器。适配层还有路由适配,用于同时连接多个厂商的智能语音产品服务器的场景,此处不作展开表述。适配层有了以上基础,开发了打造“千人千面”客服机器人的语音适配器。在接收到媒体资源服务器TTS请求时,通过应用系统甄别的此通电话的用户群体、应用场景等条件,修改MRCP报文的若干字段,达到控制语音合成效果的目的。
智能语音产品服务器,负责处理适配层转发的媒体资源服务器的ASR、TTS请求。与本发明相关的,智能语音产品服务器提供若干音色、音库(如普通话、四川话等)供系统请求使用;提供了一定范围的音量、语速等供系统请求设置。
下面智能外呼系统为例,从服务器启动后握手阶段到TTS请求阶段,介绍下本发明的工作原理。
握手阶段:
步骤1—A—2:媒体资源服务器发送INVITE消息,适配层解析报文,获取关键字段:Call-ID、媒体资源服务器IP地址ivrIP、业务类型resource(语音识别speechrecog或语音合成speechsynth)、媒体资源服务器UDP通信端口ztePort等。然后转发INVITE消息到智能语音产品服务器;
步骤3—B—4:
智能语音产品服务器返回Trying消息时,适配层解析报文,获取Call-ID,根据映射<Call-ID,ivrIP>获取应该返回的媒体资源服务器IP地址,并返回消息;
智能语音产品服务器返回OK消息时,适配层解析报文,获取以下字段:Call-ID、MRCP会话通道channel,智能语音产品服务器UDP通信端口mrcpPort等。适配层要创建接收端socket,监听UDP端口mrcpPort,用于TTS服务阶段向媒体资源服务器传输合成语音流;
步骤5—C—6:媒体资源服务器发送ACK消息,适配层转发到智能语音产品服务器。智能语音产品服务器收到ACK消息后,握手阶段结束。
TTS服务阶段:
步骤7—D—8—E—9:应用系统启动外呼任务,开场白话术需要语音合成。于是调用媒体资源服务器的交易,触发TTS服务请求。此时,服务媒体资源服务器发送SPEAK消息,适配层在E处收到SPEAK消息,解析参数Vendor-Specific-Parameters,获得场景参数、用户群体参数等,修改或增加音色、音量、语速、音库等参数后,转发到智能语音产品服务器;
步骤10—F—11:
智能语音产品服务器返回IN-PROGRESS消息,适配层转发到媒体资源服务器;
步骤12—G—13:
智能语音产品服务器返回SPEAK-COMPLETE消息,适配层转发到媒体资源服务器。至此完成一次TTS交互。
本发明关键点在于:在实时电话客服机器人场景中,打破业界单一的客服机器人发音模式,达到根据业务场景、客气群体不同,动态选择最适合的发音模式,打造“千人千面”的客服声,以提升用户体验和业务效果。
本发明在媒体资源服务器和语音产品之间,基于TCP、UDP通信构建的SIP、SDP、MRCP、RTP协议解析、修改、转发的通信适配层,以及基于适配层动态改变语音合成效果的方法。
首先,提高客服系统扩展性。本发明的基础是在媒体资源服务器和智能语音产品服务器之间增加了适配层。虽然媒体资源服务器由于平台庞大,未能与时俱进迭代升级,但是适配层可以通过与应用系统的参数传递,扩充或修改媒体资源服务器的MRCP报文参数,以达到提升业务效果的目的。同时,能紧跟智能语音产品服务器的飞速发展,使用更多的新的扩展参数,充分享受智能语音产品服务器的发展红利;
其次,提高客服系统灵活性。媒体资源服务器不但支持的参数少,而且不能动态修改,一旦服务启动,就无法修改,只能重启修改。在需求日益多样性的背景下,这种固化“一刀切”的方式完全无法满足业务要求,限制业务发展。本发明通过适配层的报文修改转发,支持服务过程中参数的动态调整,非常灵活;
最后,提升业务效果。基于以上扩展性和灵活性,我们可以对每个场景、每个用户、甚至每通电话的个性化参数调整,有的放矢地打造最适宜本场景、本用户的智能客服机器人发音。对于电话渠道,声音是影响用户体验的直接因素,合适的发音有助于提升沟通效果,提升业务效果。
本发明实施例中还提供了一种电话客服应答适配装置,如下面的实施例所述。由于该系统解决问题的原理与一种电话客服应答适配方法相似,因此系统的实施可以参见一种电话客服应答适配方法的实施,重复之处不再赘述。
图4为本发明实施例一种电话客服应答适配装置示意图,如图4所示,本发明实施提供了一种电话客服应答适配方法,应用于电话客服在不同服务场景下的个性化应答,具体实施时,该系统包括:
用户表述语音文件接收模块401,用于接收媒体资源服务器发送的用户表述语音文件,确定服务场景;
用户表述语音文件转发模块402,用于将用户表述语音文件转发至智能语音产品服务器;
回复语音文件接收模块403,用于接收智能语音产品服务器根据用户表述语音文件对应生成的回复语音文件;
语音参数调整匹配模块404,用于调整回复语音文件的语音参数,得到匹配服务场景的回复语音文件,发送至媒体资源服务器,以供媒体资源服务器通过用户前端向用户播放该匹配服务场景的回复语音文件。
具体实施本发明实施提供的一种电话客服应答适配装置时,在一个实施例中,还包括双向握手模块,用于:
接收媒体资源服务器发送的连接请求,构建与媒体资源服务器的连接通道;
根据媒体资源服务器发送的连接请求,与智能语音产品服务器进行主动连接,构建与智能语音产品服务器的连接通道;
根据与媒体资源服务器的连接通道以及与智能语音产品服务器的连接通道,分别与媒体资源服务器的连接通道和智能语音产品服务器进行双向握手。
具体实施本发明实施提供的一种电话客服应答适配装置时,在一个实施例中,双向握手模块,还用于:
建立对媒体资源服务器的TCP监听,在监听到媒体资源服务器发送连接请求时,接收所述媒体资源服务器的连接请求,根据所述媒体资源服务器的连接请求构建与媒体资源服务器的TCP连接通道。
具体实施本发明实施提供的一种电话客服应答适配装置时,在一个实施例中,双向握手模块,还用于:
根据媒体资源服务器发送的连接请求,与智能语音产品服务器进行主动连接,建立与智能语音产品服务器的TCP连接,构建与智能语音产品服务器的TCP连接通道。
具体实施本发明实施提供的一种电话客服应答适配装置时,在一个实施例中,双向握手模块,还用于:
利用与媒体资源服务器的连接通道,接收媒体资源服务器发来的握手请求消息报文,从握手请求消息报文解析获取握手关键字段,将握手请求消息报文利用与智能语音产品服务器的连接通道转发至智能语音产品服务器;
利用与智能语音产品服务器的连接通道,接收智能语音产品服务器针对握手请求消息报文对应生成的响应消息报文,根据握手关键字段确定响应消息报文所匹配的媒体资源服务器,利用与媒体资源服务器的连接通道,将响应消息报文转发至对应的媒体资源服务器;
利用与媒体资源服务器的连接通道,接收媒体资源服务器针对响应消息报文对应生成的回应消息报文,将回应消息报文利用与智能语音产品服务器的连接通道转发至生成响应消息报文的智能语音产品服务器。
具体实施本发明实施提供的一种电话客服应答适配装置时,在一个实施例中,用户表述语音文件接收模块,具体用于:
接收媒体资源服务器发送的用户表述语音文件,对语音表述文件进行解析得到用户表述语音文件的服务场景。
具体实施本发明实施提供的一种电话客服应答适配装置时,在一个实施例中,用户表述语音文件接收模块,还用于:根据用户表述语音文件的服务场景,解析得到服务场景数据;其中,所述服务场景数据,包括:场景参数,用户群体参数;
回复语音文件的语音参数,包括:回复语音文件的MRCP控制报文;
语音参数调整匹配模块,具体用于:
根据场景参数和用户群体参数,调整回复语音文件的MRCP控制报文,以使回复语音文件的音色、音量、语速、音库和声音形变匹配服务场景,得到匹配服务场景的回复语音文件。
图5为运行本发明实施的一种电话客服应答适配方法的计算机装置示意图,如图5所示,本发明实施例还提供一种计算机设备500,包括存储器510、处理器520及存储在存储器上并可在处理器上运行的计算机程序530,所述处理器执行所述计算机程序时实现上述一种电话客服应答适配方法。
具体实施本发明实施例提供的一种计算机设备,所述处理器执行所述计算机程序时实现上述电话客服应答适配方法时,应用于电话客服在不同服务场景下的个性化应答,在一个实施例中,可以包括:
接收媒体资源服务器发送的用户表述语音文件,确定服务场景;
将用户表述语音文件转发至智能语音产品服务器;
接收智能语音产品服务器根据用户表述语音文件对应生成的回复语音文件;
调整回复语音文件的语音参数,得到匹配服务场景的回复语音文件,发送至媒体资源服务器,以供媒体资源服务器通过用户前端向用户播放该匹配服务场景的回复语音文件。
具体实施本发明实施例提供的一种计算机设备,所述处理器执行所述计算机程序时实现上述一种电话客服应答适配方法时,在一个实施例中,在接收媒体资源服务器发送的用户表述语音文件之前,还包括:
接收媒体资源服务器发送的连接请求,构建与媒体资源服务器的连接通道;
根据媒体资源服务器发送的连接请求,与智能语音产品服务器进行主动连接,构建与智能语音产品服务器的连接通道;
根据与媒体资源服务器的连接通道以及与智能语音产品服务器的连接通道,分别与媒体资源服务器的连接通道和智能语音产品服务器进行双向握手。
具体实施本发明实施例提供的一种计算机设备,所述处理器执行所述计算机程序时实现上述一种电话客服应答适配方法时,在一个实施例中,接收媒体资源服务器发送的连接请求,构建与媒体资源服务器的连接通道,包括:
建立对媒体资源服务器的TCP监听,在监听到媒体资源服务器发送连接请求时,接收所述媒体资源服务器的连接请求,根据所述媒体资源服务器的连接请求构建与媒体资源服务器的TCP连接通道。
具体实施本发明实施例提供的一种计算机设备,所述处理器执行所述计算机程序时实现上述一种电话客服应答适配方法时,在一个实施例中,根据媒体资源服务器发送的连接请求,与智能语音产品服务器进行主动连接,构建与智能语音产品服务器的连接通道,包括:
根据媒体资源服务器发送的连接请求,与智能语音产品服务器进行主动连接,建立与智能语音产品服务器的TCP连接,构建与智能语音产品服务器的TCP连接通道。
具体实施本发明实施例提供的一种计算机设备,所述处理器执行所述计算机程序时实现上述一种电话客服应答适配方法时,在一个实施例中,根据与媒体资源服务器的连接通道以及与智能语音产品服务器的连接通道,分别与媒体资源服务器的连接通道和智能语音产品服务器进行双向握手,包括:
利用与媒体资源服务器的连接通道,接收媒体资源服务器发来的握手请求消息报文,从握手请求消息报文解析获取握手关键字段,将握手请求消息报文利用与智能语音产品服务器的连接通道转发至智能语音产品服务器;
利用与智能语音产品服务器的连接通道,接收智能语音产品服务器针对握手请求消息报文对应生成的响应消息报文,根据握手关键字段确定响应消息报文所匹配的媒体资源服务器,利用与媒体资源服务器的连接通道,将响应消息报文转发至对应的媒体资源服务器;
利用与媒体资源服务器的连接通道,接收媒体资源服务器针对响应消息报文对应生成的回应消息报文,将回应消息报文利用与智能语音产品服务器的连接通道转发至生成响应消息报文的智能语音产品服务器。
具体实施本发明实施例提供的一种计算机设备,所述处理器执行所述计算机程序时实现上述一种电话客服应答适配方法时,在一个实施例中,接收媒体资源服务器发送的用户表述语音文件,确定服务场景,包括:
接收媒体资源服务器发送的用户表述语音文件,对语音表述文件进行解析得到用户表述语音文件的服务场景。
具体实施本发明实施例提供的一种计算机设备,所述处理器执行所述计算机程序时实现上述一种电话客服应答适配方法时,在一个实施例中,还包括:根据用户表述语音文件的服务场景,解析得到服务场景数据;其中,所述服务场景数据,包括:场景参数,用户群体参数;
回复语音文件的语音参数,包括:回复语音文件的MRCP控制报文;
调整回复语音文件的语音参数,得到匹配服务场景的回复语音文件,包括:
根据场景参数和用户群体参数,调整回复语音文件的MRCP控制报文,以使回复语音文件的音色、音量、语速、音库和声音形变匹配服务场景,得到匹配服务场景的回复语音文件。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述一种电话客服应答适配方法。
具体本发明实施例提供的一种计算机可读存储介质,所述计算机程序被处理器执行实现上述一种电话客服应答适配方法时,在一个实施例中,可以包括:
接收媒体资源服务器发送的用户表述语音文件,确定服务场景;
将用户表述语音文件转发至智能语音产品服务器;
接收智能语音产品服务器根据用户表述语音文件对应生成的回复语音文件;
调整回复语音文件的语音参数,得到匹配服务场景的回复语音文件,发送至媒体资源服务器,以供媒体资源服务器通过用户前端向用户播放该匹配服务场景的回复语音文件。
具体本发明实施例提供的一种计算机可读存储介质,所述计算机程序被处理器执行实现上述一种电话客服应答适配方法时,在一个实施例中,在接收媒体资源服务器发送的用户表述语音文件之前,还包括:
接收媒体资源服务器发送的连接请求,构建与媒体资源服务器的连接通道;
根据媒体资源服务器发送的连接请求,与智能语音产品服务器进行主动连接,构建与智能语音产品服务器的连接通道;
根据与媒体资源服务器的连接通道以及与智能语音产品服务器的连接通道,分别与媒体资源服务器的连接通道和智能语音产品服务器进行双向握手。
具体本发明实施例提供的一种计算机可读存储介质,所述计算机程序被处理器执行实现上述一种电话客服应答适配方法时,在一个实施例中,接收媒体资源服务器发送的连接请求,构建与媒体资源服务器的连接通道,包括:
建立对媒体资源服务器的TCP监听,在监听到媒体资源服务器发送连接请求时,接收所述媒体资源服务器的连接请求,根据所述媒体资源服务器的连接请求构建与媒体资源服务器的TCP连接通道。
具体本发明实施例提供的一种计算机可读存储介质,所述计算机程序被处理器执行实现上述一种电话客服应答适配方法时,在一个实施例中,根据媒体资源服务器发送的连接请求,与智能语音产品服务器进行主动连接,构建与智能语音产品服务器的连接通道,包括:
根据媒体资源服务器发送的连接请求,与智能语音产品服务器进行主动连接,建立与智能语音产品服务器的TCP连接,构建与智能语音产品服务器的TCP连接通道。
具体本发明实施例提供的一种计算机可读存储介质,所述计算机程序被处理器执行实现上述一种电话客服应答适配方法时,在一个实施例中,根据与媒体资源服务器的连接通道以及与智能语音产品服务器的连接通道,分别与媒体资源服务器的连接通道和智能语音产品服务器进行双向握手,包括:
利用与媒体资源服务器的连接通道,接收媒体资源服务器发来的握手请求消息报文,从握手请求消息报文解析获取握手关键字段,将握手请求消息报文利用与智能语音产品服务器的连接通道转发至智能语音产品服务器;
利用与智能语音产品服务器的连接通道,接收智能语音产品服务器针对握手请求消息报文对应生成的响应消息报文,根据握手关键字段确定响应消息报文所匹配的媒体资源服务器,利用与媒体资源服务器的连接通道,将响应消息报文转发至对应的媒体资源服务器;
利用与媒体资源服务器的连接通道,接收媒体资源服务器针对响应消息报文对应生成的回应消息报文,将回应消息报文利用与智能语音产品服务器的连接通道转发至生成响应消息报文的智能语音产品服务器。
具体本发明实施例提供的一种计算机可读存储介质,所述计算机程序被处理器执行实现上述一种电话客服应答适配方法时,在一个实施例中,接收媒体资源服务器发送的用户表述语音文件,确定服务场景,包括:
接收媒体资源服务器发送的用户表述语音文件,对语音表述文件进行解析得到用户表述语音文件的服务场景。
具体本发明实施例提供的一种计算机可读存储介质,所述计算机程序被处理器执行实现上述一种电话客服应答适配方法时,在一个实施例中,还包括:根据用户表述语音文件的服务场景,解析得到服务场景数据;其中,所述服务场景数据,包括:场景参数,用户群体参数;
回复语音文件的语音参数,包括:回复语音文件的MRCP控制报文;
调整回复语音文件的语音参数,得到匹配服务场景的回复语音文件,包括:
根据场景参数和用户群体参数,调整回复语音文件的MRCP控制报文,以使回复语音文件的音色、音量、语速、音库和声音形变匹配服务场景,得到匹配服务场景的回复语音文件。
本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述一种电话客服应答适配方法。
具体实施时本发明实施例提供的一种计算机程序产品,所述计算机程序被处理器执行实现上述一种电话客服应答适配方法时,在一个实施例中,可以包括:
接收媒体资源服务器发送的用户表述语音文件,确定服务场景;
将用户表述语音文件转发至智能语音产品服务器;
接收智能语音产品服务器根据用户表述语音文件对应生成的回复语音文件;
调整回复语音文件的语音参数,得到匹配服务场景的回复语音文件,发送至媒体资源服务器,以供媒体资源服务器通过用户前端向用户播放该匹配服务场景的回复语音文件。
具体实施时本发明实施例提供的一种计算机程序产品,所述计算机程序被处理器执行实现上述一种电话客服应答适配方法时,在一个实施例中,在接收媒体资源服务器发送的用户表述语音文件之前,还包括:
接收媒体资源服务器发送的连接请求,构建与媒体资源服务器的连接通道;
根据媒体资源服务器发送的连接请求,与智能语音产品服务器进行主动连接,构建与智能语音产品服务器的连接通道;
根据与媒体资源服务器的连接通道以及与智能语音产品服务器的连接通道,分别与媒体资源服务器的连接通道和智能语音产品服务器进行双向握手。
具体实施时本发明实施例提供的一种计算机程序产品,所述计算机程序被处理器执行实现上述一种电话客服应答适配方法时,在一个实施例中,接收媒体资源服务器发送的连接请求,构建与媒体资源服务器的连接通道,包括:
建立对媒体资源服务器的TCP监听,在监听到媒体资源服务器发送连接请求时,接收所述媒体资源服务器的连接请求,根据所述媒体资源服务器的连接请求构建与媒体资源服务器的TCP连接通道。
具体实施时本发明实施例提供的一种计算机程序产品,所述计算机程序被处理器执行实现上述一种电话客服应答适配方法时,在一个实施例中,根据媒体资源服务器发送的连接请求,与智能语音产品服务器进行主动连接,构建与智能语音产品服务器的连接通道,包括:
根据媒体资源服务器发送的连接请求,与智能语音产品服务器进行主动连接,建立与智能语音产品服务器的TCP连接,构建与智能语音产品服务器的TCP连接通道。
具体实施时本发明实施例提供的一种计算机程序产品,所述计算机程序被处理器执行实现上述一种电话客服应答适配方法时,在一个实施例中,根据与媒体资源服务器的连接通道以及与智能语音产品服务器的连接通道,分别与媒体资源服务器的连接通道和智能语音产品服务器进行双向握手,包括:
利用与媒体资源服务器的连接通道,接收媒体资源服务器发来的握手请求消息报文,从握手请求消息报文解析获取握手关键字段,将握手请求消息报文利用与智能语音产品服务器的连接通道转发至智能语音产品服务器;
利用与智能语音产品服务器的连接通道,接收智能语音产品服务器针对握手请求消息报文对应生成的响应消息报文,根据握手关键字段确定响应消息报文所匹配的媒体资源服务器,利用与媒体资源服务器的连接通道,将响应消息报文转发至对应的媒体资源服务器;
利用与媒体资源服务器的连接通道,接收媒体资源服务器针对响应消息报文对应生成的回应消息报文,将回应消息报文利用与智能语音产品服务器的连接通道转发至生成响应消息报文的智能语音产品服务器。
具体实施时本发明实施例提供的一种计算机程序产品,所述计算机程序被处理器执行实现上述一种电话客服应答适配方法时,在一个实施例中,接收媒体资源服务器发送的用户表述语音文件,确定服务场景,包括:
接收媒体资源服务器发送的用户表述语音文件,对语音表述文件进行解析得到用户表述语音文件的服务场景。
具体实施时本发明实施例提供的一种计算机程序产品,所述计算机程序被处理器执行实现上述一种电话客服应答适配方法时,在一个实施例中,还包括:根据用户表述语音文件的服务场景,解析得到服务场景数据;其中,所述服务场景数据,包括:场景参数,用户群体参数;
回复语音文件的语音参数,包括:回复语音文件的MRCP控制报文;
调整回复语音文件的语音参数,得到匹配服务场景的回复语音文件,包括:
根据场景参数和用户群体参数,调整回复语音文件的MRCP控制报文,以使回复语音文件的音色、音量、语速、音库和声音形变匹配服务场景,得到匹配服务场景的回复语音文件。
综上,本发明实施例提供的一种电话客服应答适配和装置,包括:接收媒体资源服务器发送的用户表述语音文件,确定服务场景;将用户表述语音文件转发至智能语音产品服务器;接收智能语音产品服务器根据用户表述语音文件对应生成的回复语音文件;调整回复语音文件的语音参数,得到匹配服务场景的回复语音文件,发送至媒体资源服务器,以供媒体资源服务器通过用户前端向用户播放该匹配服务场景的回复语音文件。
本发明在媒体资源服务器和语音产品服务器之间进行数据转发,针对不同服务场景及用户群体,通过调整回复语音文件的语音参数改变语音合成效果,打造“千人千面”的客服应答声音。本发明突破媒体资源服务器与智能语音服务的直接交互关系,通过在媒体资源服务器与智能语音服务器之间传递数据时调整回复语音文件的语音参数,得到服务场景对应的回复语音文件,达到控制语音合成效果的目的,从而针对不同服务场景、不同客户群体提供贴切的客服音,辅助提升客服业务效果。在实时电话客服应答场景中,打破单一的客服机器人发音模式,达到根据服务场景及客户群体不同,动态选择最适合的发音模式,打造“千人千面”的客服声,以提升用户体验和业务效果。
本发明可以提高客服系统扩展性,本发明的基础是在媒体资源服务器和智能语音产品服务器之间增加了适配服务场景的语音参数修改功能,虽然媒体资源服务器由于平台庞大,未能与时俱进迭代升级,但是可以通过对回复语音文件的语音参数进行调整,以达到提升业务效果的目的。同时,能紧跟智能语音产品服务器的飞速发展,使用更多的新的扩展参数,充分享受智能语音产品服务器的发展红利。本发明可以提高客服系统灵活性,媒体资源服务器不但支持的参数少,而且不能动态修改,一旦服务启动,就无法修改,只能重启修改。在需求日益多样性的背景下,这种固化“一刀切”的方式完全无法满足业务要求,限制业务发展。
本发明通过适配调整回复语音文件中的语音参数,支持服务过程中参数的动态调整,非常灵活;最后,本发明可以提升业务效果,基于以上扩展性和灵活性,可以对每个服务场景及每一用户、甚至每通电话的个性化参数调整,有的放矢地打造最适宜本场景及本用户的智能客服应答机器人发音。对于电话渠道,声音是影响用户体验的直接因素,合适的发音有助于提升沟通效果。
在需求日益多样性的背景下,固化“一刀切”的电话客服应答方式完全无法满足业务要求,限制业务发展。本发明通过适配层的报文修改转发,支持服务过程中参数的动态调整,非常灵活;最后,本发明可以提升业务效果,基于以上扩展性和灵活性,可以对每个场景、每个用户、甚至每通电话的个性化参数调整,有的放矢地打造最适宜本场景、本用户的智能客服机器人发音。对于电话渠道,声音是影响用户体验的直接因素,合适的发音有助于提升沟通效果。
本发明在媒体资源服务器和语音产品之间构建适配层,针对不同应用场景及用户群体,通过修改MRCP报文改变语音合成效果,打造“千人千面”的客服机器人声音。本发明突破媒体资源服务器与智能语音服务的直接交互关系,在两者之间添加适配层,通过接收应用系统动态参数,修改MRCP协议报文参数,控制TTS语音合成效果。从而针对不同应用场景、不同客户群体提供贴切的客服音,辅助提升客服业务效果。在实时电话客服机器人场景中,打破业界单一的客服机器人发音模式,达到根据业务场景、客气群体不同,动态选择最适合的发音模式,打造“千人千面”的客服声,以提升用户体验和业务效果。本发明可以提高客服系统扩展性,本发明的基础是在媒体资源服务器和智能语音产品服务器之间增加了适配层。虽然媒体资源服务器由于平台庞大,未能与时俱进迭代升级,但是适配层可以通过与应用系统的参数传递,扩充或修改媒体资源服务器的MRCP报文参数,以达到提升业务效果的目的。同时,能紧跟智能语音产品服务器的飞速发展,使用更多的新的扩展参数,充分享受智能语音产品服务器的发展红利;其次,本发明可以提高客服系统灵活性,媒体资源服务器不但支持的参数少,而且不能动态修改,一旦服务启动,就无法修改,只能重启修改。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (17)
1.一种电话客服应答适配方法,其特征在于,包括:
接收媒体资源服务器发送的用户表述语音文件,确定服务场景;
将用户表述语音文件转发至智能语音产品服务器;
接收智能语音产品服务器根据用户表述语音文件对应生成的回复语音文件;
调整回复语音文件的语音参数,得到匹配服务场景的回复语音文件,发送至媒体资源服务器,以供媒体资源服务器通过用户前端向用户播放该匹配服务场景的回复语音文件。
2.如权利要求1所述的方法,其特征在于,在接收媒体资源服务器发送的用户表述语音文件之前,还包括:
接收媒体资源服务器发送的连接请求,构建与媒体资源服务器的连接通道;
根据媒体资源服务器发送的连接请求,与智能语音产品服务器进行主动连接,构建与智能语音产品服务器的连接通道;
根据与媒体资源服务器的连接通道以及与智能语音产品服务器的连接通道,分别与媒体资源服务器的连接通道和智能语音产品服务器进行双向握手。
3.如权利要求2所述的方法,其特征在于,接收媒体资源服务器发送的连接请求,构建与媒体资源服务器的连接通道,包括:
建立对媒体资源服务器的TCP监听,在监听到媒体资源服务器发送连接请求时,接收所述媒体资源服务器的连接请求,根据所述媒体资源服务器的连接请求构建与媒体资源服务器的TCP连接通道。
4.如权利要求3所述的方法,其特征在于,根据媒体资源服务器发送的连接请求,与智能语音产品服务器进行主动连接,构建与智能语音产品服务器的连接通道,包括:
根据媒体资源服务器发送的连接请求,与智能语音产品服务器进行主动连接,建立与智能语音产品服务器的TCP连接,构建与智能语音产品服务器的TCP连接通道。
5.如权利要求2所述的方法,其特征在于,根据与媒体资源服务器的连接通道以及与智能语音产品服务器的连接通道,分别与媒体资源服务器的连接通道和智能语音产品服务器进行双向握手,包括:
利用与媒体资源服务器的连接通道,接收媒体资源服务器发来的握手请求消息报文,从握手请求消息报文解析获取握手关键字段,将握手请求消息报文利用与智能语音产品服务器的连接通道转发至智能语音产品服务器;
利用与智能语音产品服务器的连接通道,接收智能语音产品服务器针对握手请求消息报文对应生成的响应消息报文,根据握手关键字段确定响应消息报文所匹配的媒体资源服务器,利用与媒体资源服务器的连接通道,将响应消息报文转发至对应的媒体资源服务器;
利用与媒体资源服务器的连接通道,接收媒体资源服务器针对响应消息报文对应生成的回应消息报文,将回应消息报文利用与智能语音产品服务器的连接通道转发至生成响应消息报文的智能语音产品服务器。
6.如权利要求1所述的方法,其特征在于,接收媒体资源服务器发送的用户表述语音文件,确定服务场景,包括:
接收媒体资源服务器发送的用户表述语音文件,对语音表述文件进行解析得到用户表述语音文件的服务场景。
7.如权利要求6所述的方法,其特征在于,还包括:根据用户表述语音文件的服务场景,解析得到服务场景数据;其中,所述服务场景数据,包括:场景参数,用户群体参数;
回复语音文件的语音参数,包括:回复语音文件的MRCP控制报文;
调整回复语音文件的语音参数,得到匹配服务场景的回复语音文件,包括:
根据场景参数和用户群体参数,调整回复语音文件的MRCP控制报文,以使回复语音文件的音色、音量、语速、音库和声音形变匹配服务场景,得到匹配服务场景的回复语音文件。
8.一种电话客服应答适配装置,其特征在于,包括:
用户表述语音文件接收模块,用于接收媒体资源服务器发送的用户表述语音文件,确定服务场景;
用户表述语音文件转发模块,用于将用户表述语音文件转发至智能语音产品服务器;
回复语音文件接收模块,用于接收智能语音产品服务器根据用户表述语音文件对应生成的回复语音文件;
语音参数调整匹配模块,用于调整回复语音文件的语音参数,得到匹配服务场景的回复语音文件,发送至媒体资源服务器,以供媒体资源服务器通过用户前端向用户播放该匹配服务场景的回复语音文件。
9.如权利要求8所述的装置,其特征在于,还包括双向握手模块,用于:
接收媒体资源服务器发送的连接请求,构建与媒体资源服务器的连接通道;
根据媒体资源服务器发送的连接请求,与智能语音产品服务器进行主动连接,构建与智能语音产品服务器的连接通道;
根据与媒体资源服务器的连接通道以及与智能语音产品服务器的连接通道,分别与媒体资源服务器的连接通道和智能语音产品服务器进行双向握手。
10.如权利要求9所述的装置,其特征在于,双向握手模块,还用于:
建立对媒体资源服务器的TCP监听,在监听到媒体资源服务器发送连接请求时,接收所述媒体资源服务器的连接请求,根据所述媒体资源服务器的连接请求构建与媒体资源服务器的TCP连接通道。
11.如权利要求10所述的装置,其特征在于,双向握手模块,还用于:
根据媒体资源服务器发送的连接请求,与智能语音产品服务器进行主动连接,建立与智能语音产品服务器的TCP连接,构建与智能语音产品服务器的TCP连接通道。
12.如权利要求9所述的装置,其特征在于,双向握手模块,还用于:
利用与媒体资源服务器的连接通道,接收媒体资源服务器发来的握手请求消息报文,从握手请求消息报文解析获取握手关键字段,将握手请求消息报文利用与智能语音产品服务器的连接通道转发至智能语音产品服务器;
利用与智能语音产品服务器的连接通道,接收智能语音产品服务器针对握手请求消息报文对应生成的响应消息报文,根据握手关键字段确定响应消息报文所匹配的媒体资源服务器,利用与媒体资源服务器的连接通道,将响应消息报文转发至对应的媒体资源服务器;
利用与媒体资源服务器的连接通道,接收媒体资源服务器针对响应消息报文对应生成的回应消息报文,将回应消息报文利用与智能语音产品服务器的连接通道转发至生成响应消息报文的智能语音产品服务器。
13.如权利要求8所述的装置,其特征在于,用户表述语音文件接收模块,具体用于:
接收媒体资源服务器发送的用户表述语音文件,对语音表述文件进行解析得到用户表述语音文件的服务场景。
14.如权利要求13所述的装置,其特征在于,用户表述语音文件接收模块,还用于:根据用户表述语音文件的服务场景,解析得到服务场景数据;其中,所述服务场景数据,包括:场景参数,用户群体参数;
回复语音文件的语音参数,包括:回复语音文件的MRCP控制报文;
语音参数调整匹配模块,具体用于:
根据场景参数和用户群体参数,调整回复语音文件的MRCP控制报文,以使回复语音文件的音色、音量、语速、音库和声音形变匹配服务场景,得到匹配服务场景的回复语音文件。
15.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至7任一所述方法。
17.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现权利要求1至7任一所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111405708.1A CN114143401B (zh) | 2021-11-24 | 2021-11-24 | 一种电话客服应答适配方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111405708.1A CN114143401B (zh) | 2021-11-24 | 2021-11-24 | 一种电话客服应答适配方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114143401A true CN114143401A (zh) | 2022-03-04 |
CN114143401B CN114143401B (zh) | 2024-04-12 |
Family
ID=80391333
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111405708.1A Active CN114143401B (zh) | 2021-11-24 | 2021-11-24 | 一种电话客服应答适配方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114143401B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116052646A (zh) * | 2023-03-06 | 2023-05-02 | 北京水滴科技集团有限公司 | 语音识别方法、装置、存储介质和计算机设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109473100A (zh) * | 2018-11-12 | 2019-03-15 | 四川驹马科技有限公司 | 基于语音识别的业务场景语音人机交互方法及其系统 |
CN110534088A (zh) * | 2019-09-25 | 2019-12-03 | 招商局金融科技有限公司 | 语音合成方法、电子装置及存储介质 |
CN110738981A (zh) * | 2019-10-22 | 2020-01-31 | 集奥聚合(北京)人工智能科技有限公司 | 一种基于智能语音通话对答的交互方法 |
CN111917726A (zh) * | 2020-07-01 | 2020-11-10 | 中国建设银行股份有限公司 | 适配层、语音通信系统及其控制方法 |
-
2021
- 2021-11-24 CN CN202111405708.1A patent/CN114143401B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109473100A (zh) * | 2018-11-12 | 2019-03-15 | 四川驹马科技有限公司 | 基于语音识别的业务场景语音人机交互方法及其系统 |
CN110534088A (zh) * | 2019-09-25 | 2019-12-03 | 招商局金融科技有限公司 | 语音合成方法、电子装置及存储介质 |
CN110738981A (zh) * | 2019-10-22 | 2020-01-31 | 集奥聚合(北京)人工智能科技有限公司 | 一种基于智能语音通话对答的交互方法 |
CN111917726A (zh) * | 2020-07-01 | 2020-11-10 | 中国建设银行股份有限公司 | 适配层、语音通信系统及其控制方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116052646A (zh) * | 2023-03-06 | 2023-05-02 | 北京水滴科技集团有限公司 | 语音识别方法、装置、存储介质和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN114143401B (zh) | 2024-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9214154B2 (en) | Personalized text-to-speech services | |
US20210366471A1 (en) | Method and system for processing audio communications over a network | |
US8326596B2 (en) | Method and apparatus for translating speech during a call | |
US10121475B2 (en) | Computer-implemented system and method for performing distributed speech recognition | |
CA2947890C (en) | In-call translation | |
KR101442312B1 (ko) | 도메인이 상이한 실시간 다중 언어 통신 서비스 기반형 개방 아키텍처 | |
US8296139B2 (en) | Adding real-time dictation capabilities for speech processing operations handled by a networked speech processing system | |
US8239204B2 (en) | Inferring switching conditions for switching between modalities in a speech application environment extended for interactive text exchanges | |
US7315612B2 (en) | Systems and methods for facilitating communications involving hearing-impaired parties | |
US20150347399A1 (en) | In-Call Translation | |
WO2016094598A1 (en) | Translation control | |
CN105206273B (zh) | 语音传输控制方法及系统 | |
CN114143401B (zh) | 一种电话客服应答适配方法和装置 | |
JP2005151553A (ja) | ボイス・ポータル | |
CN113395284B (zh) | 多场景的语音服务实时匹配方法、系统、设备及存储介质 | |
JP2002101203A (ja) | 音声処理システム、音声処理方法およびその方法を記憶した記憶媒体 | |
CN111696576A (zh) | 一种智能语音机器人话术测试系统 | |
CN115426434B (zh) | 数据处理方法、设备及存储介质 | |
KR102413621B1 (ko) | 단말 장치 및 정보 제공 서비스 서버 | |
US20230005465A1 (en) | Voice communication between a speaker and a recipient over a communication network | |
WO2024050487A1 (en) | Systems and methods for substantially real-time speech, transcription, and translation | |
JP2003140681A (ja) | VoiceXML音声会議方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |