CN113395284A

CN113395284A - 多场景的语音服务实时匹配方法、系统、设备及存储介质

Info

Publication number: CN113395284A
Application number: CN202110665712.5A
Authority: CN
Inventors: 陆东明; 朱云峰; 翟明辉; 汪潇; 张致远
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2021-06-16
Filing date: 2021-06-16
Publication date: 2021-09-14
Anticipated expiration: 2041-06-16
Also published as: CN113395284B

Abstract

本发明提供了多场景的语音服务实时匹配方法、系统、设备及存储介质，其中，匹配方法包括：服务端设备对客户端设备上传的网络包进行解析，过滤出基于会话初始协议或基于媒体资源控制协议的网络包；服务端设备将基于会话初始协议的网络包进行协议转换，转换为媒体资源控制协议的网络包；服务端设备对媒体资源控制协议的网络包进行解析获得语音包和呼叫信息，呼叫信息被配置于由客户端设备发起的语音服务请求获得的消息字段中的预设字段，呼叫信息至少包括已签约的语音业务的唯一标识；服务端设备至少基于呼叫信息对应的语音业务处理网络包的语音包。本发明能够兼容两种协议的语音流来源，通过复合调用多种实时语音应用服务来匹配不同的业务场景。

Description

多场景的语音服务实时匹配方法、系统、设备及存储介质

技术领域

本发明涉及智能语音领域，具体地说，涉及多场景的语音服务实时匹配方法、系统、设备及存储介质。

背景技术

在呼叫中心智能语音场景下，实时语音主要应用于智能语音导航、智能语音质检、坐席助手、热点发现、身份验证等业务。实时语音不仅用于录音，还用于声纹识别、语音识别等人工智能技术。

呼叫中心与AI语音能力引擎直接对接进行声纹识别或语音识别等单通话过程的语音应用的技术的方案已经比较成熟。但对于一个实际的业务来说，往往同一个通话不仅仅需要一个业务场景，而且不同的业务场景也并不是需要面向呼叫中心接入的全部通话。需要有一种单个通话的多业务场景应用，并提供灵活的配置来管理选择不同的业务场景的方法。

因此，本发明提供了一种多场景的语音服务实时匹配方法、系统、设备及存储介质。

需要说明的是，上述背景技术部分公开的信息仅用于加强对本发明的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

针对现有技术中的问题，本发明的目的在于提供多场景的语音服务实时匹配方法、系统、设备及存储介质，克服了现有技术的困难，能够兼容两种协议的语音流来源，通过复合调用多种实时语音应用服务的灵活配置来满足不同的业务场景需求。

本发明的实施例提供一种多场景下的实时语音匹配方法，包括以下步骤：

服务端设备对客户端设备上传的网络包进行解析，过滤出基于会话初始协议或基于媒体资源控制协议的网络包；

服务端设备将基于会话初始协议的网络包进行协议转换，转换为媒体资源控制协议的网络包；

服务端设备对所述媒体资源控制协议的网络包进行解析获得语音包和呼叫信息，所述呼叫信息被配置于由客户端设备发起的语音服务请求获得的消息字段中的预设字段，所述呼叫信息至少包括已签约的语音业务的唯一标识；以及

服务端设备至少基于所述呼叫信息对应的语音业务处理所述网络包的语音包。

优选地，所述服务端设备至少基于所述呼叫信息对应的语音业务处理所述语音包的语音包之后，还包括：基于同一个呼叫的主叫语音的语音包或者被叫语音的语音包建立一会话，所述会话进行语音包的缓存。

优选地，所述基于同一个呼叫的主叫语音的语音包或者被叫语音的语音包建立一会话，所述会话进行语音包的缓存之后，还包括：

当所述唯一标识对应的语音业务包括语音包缓存时长的预设条件，判断所述会话缓存的语音包时长是否满足所述预设条件，若是，则执行对应的语音业务，若否，则所述会话继续进行语音包的缓存。

优选地，所述服务端设备将基于会话初始协议的网络包进行协议转换，转换为媒体资源控制协议的网络包，包括：

通过对会话初始协议的网络包中消息格式的解析，获取主叫和被叫的语音实时传输协议端口；

将一基于会话初始协议的呼叫拆分并构造为基于媒体资源控制协议的主叫侧的网络包和被叫侧的网络包。

优选地，所述主叫侧的网络包和被叫侧的网络包各自包括对应的RTP语音端口。

优选地，所述将一基于会话初始协议的呼叫拆分并构造为基于媒体资源控制协议的主叫侧的网络包和被叫侧的网络包，还包括：

在每个所述网络包的基于语音服务请求的消息字段中增加一个预设字段，用于存放主叫和被叫的呼叫信息。

优选地，所述消息字段包括主叫号码、被叫号码、坐席分机号，坐席IP地址及呼叫编号中的至少一个。

本发明的实施例还提供一种多场景下的实时语音匹配系统，用于实现上述的多场景下的实时语音匹配方法，所述多场景下的实时语音匹配系统包括：

网络包过滤模块，服务端设备对客户端设备上传的网络包进行解析，过滤出基于会话初始协议或基于媒体资源控制协议的网络包；

网络包转换模块，服务端设备将基于会话初始协议的网络包进行协议转换，转换为媒体资源控制协议的网络包；

呼叫信息配置模块，服务端设备对所述媒体资源控制协议的网络包进行解析获得语音包和呼叫信息，所述呼叫信息被配置于由客户端设备发起的语音服务请求获得的消息字段中的预设字段，所述呼叫信息至少包括已签约的语音业务的唯一标识；以及

网络包处理模块，服务端设备至少基于所述呼叫信息对应的语音业务处理所述网络包的语音包。

本发明的实施例还提供一种多场景下的实时语音匹配设备，包括：

处理器；

存储器，其中存储有所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行上述多场景下的实时语音匹配方法的步骤。

本发明的实施例还提供一种计算机可读存储介质，用于存储程序，所述程序被执行时实现上述多场景下的实时语音匹配方法的步骤。

本发明的目的在于提供多场景的语音服务实时匹配方法、系统、设备及存储介质，能够兼容两种协议的语音流来源，通过复合调用多种实时语音应用服务的灵活配置来管理不同的业务场景，提高语音服务的精细化程度，增强用户体验。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显。

图1是本发明的多场景下的实时语音匹配方法的一种实施例的流程图。

图2是本发明的多场景下的实时语音匹配方法的另一种实施例的流程图。

图3是本发明的多场景下的实时语音匹配系统的一种实施例的模块示意图。

图4是本发明的多场景下的实时语音匹配系统的另一种实施例的模块示意图。

图5是本发明的多场景下的实时语音匹配系统运行的示意图。

图6是本发明的多场景下的实时语音匹配设备的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的实施方式。相反，提供这些实施方式使得本发明将全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构，因而将省略对它们的重复描述。

图1是本发明的多场景下的实时语音匹配方法的一种实施例的流程图。本发明的实施例提供一种多场景下的实时语音匹配方法，包括以下步骤：

S110、服务端设备对客户端设备上传的网络包进行解析，过滤出基于会话初始协议或基于媒体资源控制协议的网络包。例如：呼叫中心的每通呼叫的网络包数据通过交换机端口镜像至网络包分析模块部署的服务器网卡。本实施例中，利用开源的libpcap包(libpcap是unix/linux平台下的网络数据包捕获函数包，大多数网络监控软件都以它为基础。)，进行网络包分析，将SIP协议、RTP协议相关的包过滤出来。将字节流转换为时长为一秒，呼叫的语音流采样率一般为8kHz，16位，单声道，则分帧后的字节流为16000字节。

其中，会话初始协议(Session Initiation Protocol，SIP)是由IETF(InternetEngineering Task Force，因特网工程任务组)制定的多媒体通信协议。它是一个基于文本的应用层控制协议，用于创建、修改和释放一个或多个参与者的会话。SIP是一种源于互联网的IP语音会话控制协议，具有灵活、易于实现、便于扩展等特点。

实时传输协议(Real-time Transport Protocol或简写RTP)是一个网络传输协议，它是由IETF的多媒体传输工作小组1996年在RFC 1889中公布的。RTP协议详细说明了在互联网上传递音频和视频的标准数据包格式。它一开始被设计为一个多播协议，但后来被用在很多单播应用中。RTP协议常用于流媒体系统(配合RTSP协议)，视频会议和一键通(Push to Talk)系统(配合H.323或SIP)，使它成为IP电话产业的技术基础。RTP协议和RTP控制协议RTCP一起使用，而且它是创建在UDP协议上的。

S120、服务端设备将基于会话初始协议的网络包进行协议转换，转换为媒体资源控制协议的网络包。对于一些老旧呼叫中心系统，可能不支持MRCPv2协议。对于这部分系统，本方案采用交换机呼叫信令端口镜像的技术来抓包获取实时的SIP呼叫信令。通过配置交换机厂商提供的端口镜像功能，实现交换机呼叫端口的SIP信令复制。本方案从SIP信令的INVITE消息(邀请消息)中获取呼叫的相关信息，并从INVITE、200OK的消息中获取RTP的端口，由于已经有MRCPv2服务端进行RTP语音流的分析，SIP信令抓包模块不需要再进行RTP的解析，而是通过分析SIP信令的INVITE消息的请求与相应信令内容，获得主被叫号码或其他信令中携带的标识及语音端口，将一个SIP呼叫转换拆分模拟成两个MRCP会话，分别为一个主叫侧MRCP语音流会话、一个被叫侧MRCP语音流会话，发送给MRCPv2服务模块进行RTP语音流解析和呼叫信息处理。其中，媒体资源控制协议(Media Resource Control Protocol,MRCP协议)是一种基于TCP/IP的通讯协议，用于客户端设备向媒体资源服务器请求提供各种媒体资源服务。此协议经过不断的更新，目前最新的版本为RFC6787,可以支持的媒体资源业务包括文语转换(Text to Speech,TTS)、自动语音识别(Automatic SpeechRecognition,ASR)、录音(Recording)、声纹识别(Voiceprint Recognition,VPR)。本实施例中使用MRCPv2协议。

S130、服务端设备对上述媒体资源控制协议的网络包进行解析获得语音包和呼叫信息，上述呼叫信息被配置于由客户端设备发起的语音服务请求获得的消息字段中的预设字段，上述呼叫信息至少包括已签约的语音业务的唯一标识。目前主流的最新的呼叫中心均支持MRCPv2协议，通过该协议的语音识别请求可以实现客户端设备向服务端实时同步语音流，但标准的MRCPv2协议栈只是用于传送语音流，对于呼叫中心的应用来说，除了语音，重要的信息还包括呼叫的随路信息。本方案实现一个MRCPv2自定义服务端，由客户端设备(例如呼叫中心)通过发起RECOGNIZE的方法消息进行实时语音同步，并且在RECOGNIZE方法的消息中增加一个自定义字段，该字段以文本形式将所有呼叫信息以一定格式拼接在该字段中，实现传送语音流的同时，传送呼叫信息。MRCPv2服务端通过对消息中RTP端口(实时传输协议端口)的分析获取到语音流，经过格式转换将语音流转换为语音包，并且将从RECOGNIZE方法消息中解析获取的呼叫信息和语音包一同传送给后续语音处理模块。

S140、服务端设备至少基于上述呼叫信息对应的语音业务处理上述网络包的语音包。通过对实时语音流中呼叫信息主被叫号码及坐席号等的分析匹配，定位该通呼叫属于哪一个具体的上层业务，并通过该号码签约注册的AI语音能力确定该通呼叫的语音需要进行录音或者声纹识别或者语音识别或其他智能语音服务。

在一个优选实施例中，上述消息字段包括主叫号码、被叫号码、坐席分机号，坐席IP地址及呼叫编号中的至少一个。

语音识别(Speech Recognition)，也被称为自动语音识别Automatic SpeechRecognition，(ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。本实施例中，使用基于人工神经网络的语音识别。目前，人工神经网络在语音识别中的应用研究的兴起。在这些研究中，大部分采用基于反向传播算法(BP算法)的多层感知网络。人工神经网络具有区分复杂的分类边界的能力，显然它十分有助于模式划分，特别是在电话语音识别方面。

本发明通过SIP与MRCPv2协议双协议兼容获取原始的实时语音流与呼叫随路信息，利用信令分析、协议转换、RTP语音提取、能力注册、场景匹配、语音缓存、能力开放、结果推送等技术，实现实时呼叫语音的多场景应用系统，该系统是一个基础开发平台，系统具备SIP与MRCPv2协议的实时语音流数据双协议兼容接入，并使单个通话的语音具备录音、声纹识别、语音识别等多个能力调用，语音处理和能力签约管理复用，支持各种语音相关应用开发场景。

通过实施和使用本发明，外部的语音类业务应用如果基于本发明平台系统提供的开放接口进行二次开发，无需关注语音获取及AI能力如何调用，使开发过程敏捷高效，降低开发成本。

本发明的实时语音的多场景应用主要包括语音源多协议兼容接入、呼叫随路信息处理、语音应用多场景能力实现。语音源多协议接入指MRCPv2实时协议接入、SIP协议端口镜像接入。语音应用多场景主要是指单个通话语音根据上层业务需求实现录音、声纹识别、语音识别等能力的签约管理和调用。

图2是本发明的多场景下的实时语音匹配方法的另一种实施例的流程图。如图2所示，该多场景下的实时语音匹配方法，在图1实施例中步骤S110、S120、S130、S140的基础上，还包括通过步骤S150、步骤S160，并且通过S121、S122替换了步骤S120。

在步骤S121中，通过对会话初始协议的网络包中消息格式的解析，获取主叫和被叫的语音RTP端口。后续的媒体资源控制协议(MRCPv2)服务端通过对消息中RTP端口的分析获取到语音流，经过格式转换将语音流转换为语音包，并且将从RECOGNIZE方法消息中解析获取的呼叫信息和语音包一同传送给后续语音处理模块。

在步骤S122中，将一基于会话初始协议的呼叫拆分并构造为基于媒体资源控制协议的主叫侧的网络包和被叫侧的网络包，在每个上述网络包的基于语音识别的消息字段中增加一个预设字段，用于存放主叫和被叫的呼叫信息。本方案从SIP信令的INVITE消息中获取呼叫的相关信息，并从INVITE、200OK的消息中获取RTP的端口，由于已经有MRCPv2服务端进行RTP语音流的分析，SIP信令抓包模块不需要再进行RTP的解析，而是通过分析SIP信令的INVITE消息的请求与相应信令内容，获得主被叫号码或其他信令中携带的标识及语音端口，将一个SIP呼叫转换拆分模拟成两个MRCP会话，分别为一个主叫侧MRCP语音流会话、一个被叫侧MRCP语音流会话，发送给MRCPv2服务模块进行RTP语音流解析和呼叫信息处理。

在步骤S150中，基于同一个呼叫的主叫语音的语音包或者被叫语音的语音包建立一会话，会话进行语音包的缓存。同一个呼叫的主叫或者被叫语音使用会话来进行管理，呼叫开始时，新建一个会话存储在高速缓存中，会话信息包括会话标识、语音的呼叫随路信息。对于录音、声纹识别等能力，会话中还需要另外进行语音包的缓存。

在步骤S160中，当上述唯一标识对应的语音业务包括语音包缓存时长的预设条件，判断上述会话缓存的语音包时长是否满足上述预设条件，若是，则执行对应的语音业务，若否，则上述会话继续进行语音包的缓存。如果一个呼叫的号码注册了多种AI语音能力，那么该呼叫会话的语音会进行多种能力的调用，例如被叫号码注册声纹识别与语音识别两种能力，那么处理该通呼叫语音时，需要根据外部语音平台能力接口要求，缓存一定时长的语音后进行能力调用。

上述步骤S110、S130、S140与图1对应实施例中相同，此处不再赘述。

图3是本发明的多场景下的实时语音匹配系统的一种实施例的模块示意图。本发明的多场景下的实时语音匹配系统，如图3所示，包括但不限于：

网络包过滤模块51，服务端设备对客户端设备上传的网络包进行解析，过滤出基于会话初始协议或基于媒体资源控制协议的网络包。传统呼叫平台的呼叫语音流数据，通过交换机端口镜像抓包方式，将源端口的数据流量转发到实时语音多场景应用系统服务器指定网络端口来实现对网络的监听。网络包分析模块从指定端口实时高效地读取由呼叫平台交换机镜像过来的IP数据包，并对数据包进行分析，将与SIP协议及语音媒体RTP相关的数据包分拣出来，发送给SIP协议转换模块。

网络包转换模块52，服务端设备将基于会话初始协议的网络包进行协议转换，转换为媒体资源控制协议的网络包。该模块完成SIP协议的数据包转换为MRCPv2协议的数据包。该模块接收网络包分析模块分拣出来的SIP包与RTP包，通过分析SIP协议中的INVITE消息和200OK消息获取呼叫标识callid、主被叫号码或坐席分机号、坐席IP地址等呼叫信息，以及主叫RTP语音端口和被叫RTP语音端口。之后将一通包含主被叫的SIP协议的呼叫消息拆分构造为两个MRCP的RECOGNIZE方法消息会话，分别携带主被叫RTP语音端口号，并在RECOGNIZE方法消息中的自定义字段中，分别填入呼叫信息，且以callType进行主被叫侧标识区分。最后模拟MRCP客户端设备，将2个MRCP的RECOGNIZE方法消息发送给MRCPv2服务模块进行后续处理。

呼叫信息配置模块53，服务端设备对上述媒体资源控制协议的网络包进行解析获得语音包和呼叫信息，上述呼叫信息被配置于由客户端设备发起的语音识别获得的消息字段中的预设字段，上述呼叫信息至少包括已签约的语音业务的唯一标识。该模块实现了一个MRCPv2协议的服务端，接收MRCP请求消息，并对客户端设备(图1中的呼叫语音平台和SIP协议转换模块)发起的RECOGNIZE方法消息会话进行分析，解析携带呼叫信息的自定义字段，读取如agentid(坐席号或分机号)；calling(主叫号码)；called(被叫号码)；callType(主被叫侧标识)；callid(通话标识)；ip(坐席ip)等等。同时从RECOGNIZE方法请求消息中的RTP端口中获取到语音流，经过格式转换将语音流转换为语音包，最后将上述解析获取的呼叫信息和语音包一同传送给后续语音处理模块。

网络包处理模块54，服务端设备至少基于上述呼叫信息对应的语音业务处理上述网络包的语音包。该模块完成AI语音能力的匹配及分发语音包到下游AI语音能力引擎平台。对呼叫信息中的主被叫号码、坐席号等信息进行分析，匹配到相关的外部语音应用，并获取不同号码所签约关联的AI语音能力。根据一个号码签约注册的的AI语音能力，进行并行调用。

上述模块的实现原理参见多场景下的实时语音匹配方法中的相关介绍，此处不再赘述。

本发明的多场景下的实时语音匹配系统能够兼容两种协议的语音流来源，通过复合调用多种实时语音应用服务的灵活配置来管理不同的业务场景，提高语音服务的精细化程度，增强用户体验。

图4是本发明的多场景下的实时语音匹配系统的另一种实施例的模块示意图。如图4所示，在图3所示装置实施例的基础上，本发明的基于混合加密的登录认证系统还包括但不限于：自适应模块55，并且通过终端采样模块521和参数确定模块522来替换参数获取模块52。

网络包解析模块521，通过对会话初始协议的网络包中消息格式的解析，获取主叫和被叫的语音RTP端口。

呼叫信息配置模块522，将一基于会话初始协议的呼叫拆分并构造为基于媒体资源控制协议的主叫侧的网络包和被叫侧的网络包，在每个上述网络包的基于语音识别的消息字段中增加一个预设字段，用于存放主叫和被叫的呼叫信息。

呼叫信息配置模块53，服务端设备对上述媒体资源控制协议的网络包进行解析获得语音包和呼叫信息，上述呼叫信息被配置于由客户端设备发起的语音识别获得的消息字段中的预设字段，上述呼叫信息至少包括已签约的语音业务的唯一标识。对于一个呼叫来说，呼叫信息主要包括主叫号码、被叫号码、坐席号、分机号、坐席IP、呼叫标识、呼叫开始时间、应答时间、结束时间等信息。由于本方案实现是一个语音应用基础平台，主要由接入平台的外部语音应用系统来实现最终的的业务应用。因此需要根据呼叫信息识别出不同上层业务的呼叫，一般使用主被叫号码或坐席号与签约的唯一标识进行匹配，以区分不同上层业务。外部语音应用系统在平台申请对接后，可以将所需要调用的语音能力签约注册到某个唯一标识上(采用主被叫号码或坐席号等)，例如，号码A作为被叫时需要进行录音、并对整个通话进行语音识别，那么号码A就签约注册了录音及语音识别两项AI语音能力。

网络包处理模块54，服务端设备至少基于上述呼叫信息对应的语音业务处理上述网络包的语音包。通过对实时语音流中呼叫信息主被叫号码及坐席号等的分析匹配，定位该通呼叫属于哪一个具体的上层业务，并通过该号码签约注册的AI语音能力确定该通呼叫的语音需要进行录音或者声纹识别或者语音识别或其他智能语音服务。

会话建立模块55，基于同一个呼叫的主叫语音的语音包或者被叫语音的语音包建立一会话，会话进行语音包的缓存。同一个呼叫的主叫或者被叫语音使用会话来进行管理，呼叫开始时，新建一个会话存储在高速缓存中，会话信息包括会话标识、语音的呼叫随路信息。对于录音、声纹识别等能力，会话中还需要另外进行语音包的缓存。

语音业务触发模块56，当上述唯一标识对应的语音业务包括语音包缓存时长的预设条件，判断上述会话缓存的语音包时长是否满足上述预设条件，若是，则执行对应的语音业务，若否，则继续缓存。如果一个呼叫的号码注册了多种AI语音能力，那么该呼叫会话的语音会进行多种能力的调用，例如被叫号码注册声纹识别与语音识别两种能力，那么处理该通呼叫语音时，需要根据外部语音平台能力接口要求，缓存一定时长的语音后进行能力调用。

图5是本发明的多场景下的实时语音匹配系统运行的示意图。如图5所示，本发明的多场景下的实时语音匹配系统包括了：网络包过滤模块51、网络包转换模块52、呼叫信息配置模块53、网络包处理模块54、会话建立模块(图中未示出)、语音业务触发模块(图中未示出)、语音能力对接服务模块57、应用语音能力注册模块58、语音能力对接结果处理模块59，以及与上述模块配合的呼叫平台交换机41、呼叫语音平台42、外部语音应用43以及外部语音能力平台44。呼叫平台交换机41连接网络包分析模块51。呼叫语音平台42连接呼叫信息配置模块53。外部语音应用43分别连接应用语音能力注册模块58、语音能力对接结果处理模块59；外部语音能力平台44分别连接语音能力对接服务模块57和语音能力对接结果处理模块59。

本发明通过多场景下的实时语音匹配系统运行多场景下的实时语音匹配方法的过程中各模块如下：

网络包分析模块51，用于呼叫中心的每通呼叫的网络包数据通过交换机端口镜像至网络包分析模块部署的服务器网卡。利用开源的libpcap包，进行网络包分析，将SIP协议、RTP协议相关的包过滤出来。将字节流转换为时长为一秒，呼叫的语音流采样率一般为8kHz，16位，单声道，则分帧后的字节流为16000字节。

网络包转换模块52，用于解析收到的实时SIP包，通过对SIP INVITE消息及200OK消息的分析，获取主被叫号码、坐席分机号，坐席IP及Callid等信息，通过对SIP消息SDP的分析，获取主叫和被叫的语音RTP端口。将一通SIP呼叫拆分并构造为主叫侧和被叫侧两通MRCP RECOGNIZE方法消息会话并分别携带主被叫RTP语音端口，同时在RECOGNIZE方法请求消息中增加一个私有字段callParameter，用于存放主叫和被叫的呼叫信息，各个信息字段之间使用分号分隔。最后模拟MRCP客户端设备，将2个MRCP的RECOGNIZE方法消息发送给MRCPv2服务模块。本实施例描述一个主叫侧MRCP RECOGNIZE方法请求消息中的自定义字段callParameter如下:

calling＝62620000；called＝12345；callid＝SBCd776e41；

callType＝calling；agentid＝890404；ip＝10.177.22.1，

其中calling表示主叫号码，called表示被叫号码，callid表示唯一呼叫标识，callType表示这条语音是主叫侧语音，agentid表示坐席分机号，ip表示坐席ip地址。

描述一个被叫侧MRCP RECOGNIZE方法请求消息中的自定义字段callParameter如下:

calling＝62620000；called＝12345；callid＝SBCd776e41；

callType＝called；agentid＝890404；ip＝10.177.22.1，

其中calling表示主叫号码，called表示被叫号码，callid表示唯一呼叫标识，callType表示这条语音是被叫侧语音，agentid表示坐席分机号，ip表示坐席ip地址。

呼叫信息配置模块53，用于实现MRCP服务端，接收MRCP RECOGNIZE方法消息请求。分析自定义字段callParameter提取出主叫号码、被叫号码、坐席分机号、坐席ip和呼叫标识参数等，通过RTP端口获取语音流。标准的单个呼叫RTP包是20毫秒，本模块将缓存多个RTP包，累积至1秒后，将呼叫信息、主叫侧语音及呼叫信息、被叫侧语音都通过HTTP协议发送给实时语音处理模块。

应用语音能力注册模块58，该模块完成外部语音应用在本系统的AI语音能力签约注册及签约管理。一个语音应用可以把需要的AI语音能力注册在主叫或者被叫号码或者坐席号、坐席分机号上，AI语音能力包括声纹识别、语音识别、录音功能。每个号码可以注册一个或多个AI语音能力，通过本模块可以准实时的灵活调整重新签约AI语音能力。外部语音应用进行AI语音能力注册时，还可以根据业务需求绑定能力服务结果的回调地址。应用语音能力注册模块58通过存储接入的外部应用相关信息，及特定号码与AI语音能力的签约关系。使用关系型数据库进行应用、号码及签约AI语音能力绑定关系的数据存储。相关数据定时同步到高速缓存中，比如redis中存放一个副本，处理模块读取签约数据时，只读取高速缓存中的数据，可以提高实时业务处理速度。例如，应用A为被叫号码X开通了声纹识别及语音识别两项能力，即所有拨打号码X的呼叫都需要进行声纹识别和语音识别；应用B为坐席号Y开通了语音识别和录音功能，则坐席Y所有接听的通话均进行语音识别和录音。本实施例对应用A采用AI语音能力调用服务结果主动通知模式，所以应用A在注册签约语音能力时还提供了声纹识别的结果回调地址及语音识别的结果回调地址；对应用B采用语音识别主动通知模式，录音被动通知模式。应用B在注册签约语音能力时还提供了的语音识别结果回调地址，对录音结果则定时发起查询。所有应用提供的回调地址均存放在数据库中，并同样同步到高速缓存中，提高结果处理模块查询效率。

实时语音处理模块54，用于通过HTTP接口从MRCPv2服务模块获取到实时语音流与相关的呼叫信息。通过对呼叫信息的分析，获取主被叫号码、坐席分机号等，对与呼叫中心协商定义的注册号码进行判断该号码上签约的AI语音能力。例如被叫号码为X，从高速缓存中获知该号码签约了声纹识别及语音识别两项能力。则该模块将语音与呼叫信息并行发送到语音识别能力对接服务模块及声纹识别能力对接服务模块。

语音能力对接服务模块57，该模块完成对每种AI语音能力的适配对接。外部AI语音能力引擎平台提供对外的能力调用接口，由该模块完成接口的封装对接。模块收到语音包之后，对于每通呼叫，为每个AI语音能力生成一个语音能力调用会话，以便同一通呼叫的信息管理。AI语音能力调用会话使用高速缓存实现，主要存放呼叫信息，语音位置，缓存语音段等信息。该模块还具备对下游AI语音能力引擎平台的分租户授权并发管理功能。可以将每一种能力设计成一个独立的能力对接服务模块，该模块分为声纹识别能力对接模块、语音识别能力对接模块、录音能力对接模块等多个子服务模块与外部的AI语音能力引擎平台分别对接。独立的能力对接模块耦合度低，可以非常便捷高效的对接其他同类型异厂商语音能力引擎或不同类型的异构语音能力引擎。例如，对应用A的号码X进行声纹识别和语音识别，声纹识别能力对接模块获取到语音及呼叫信息后，建立呼叫语音会话，缓存语音至声纹语音能力引擎要求的最短识别时长后发起识别请求；而语音识别能力对接模块获取到语音及呼叫信息后，建立呼叫语音会话，将语音流传送至语音识别引擎进行实时语音识别。

语音能力对接结果处理模块59，该模块完成将AI语音能力服务结果通知外部语音应用，分为主动通知与被动通知两种方式。主动通知方式是指根据呼叫信息，匹配到外部语音应用，并获取该应用提供的回调地址，在AI语音能力调用完毕后，将结果通过回调地址告知外部语音应用。被动告知方式是指外部应用通过接口定时查询方式获取服务结果。语音能力对接结果处理模块59用于声纹识别的结果为识别后的用户ID及相似度打分，语音识别的结果为一段文本，录音的结果为语音文件。本实施例应用A采用主动通知模式，即AI语音能力调用完成后，通过外部语音应用43A提供的回调地址，由语音对接结果处理模块59将声纹识别结果和语音识别结果通过HTTP方式返回给外部语音应用43A。本实施例应用B签约的录音能力采用被动通知模式，应用B定时以FTP方式从语音对接结果处理模块59获取录音文件。

本发明的多场景下的实时语音匹配方法与现有技术相比，现有的使用实时语音流进行语音识别或者声纹识别的技术大多针对单个应用场景，语音流来源也比较单一。目前比较成熟的技术方案也大多采用MRCP协议栈所提供的呼叫中心直接调用媒体资源对接AI语音能力引擎的处理流程。

本发明提出了在呼叫场景下的实时语音流多个应用场景的综合技术方案，对呼叫语音流主要来源的SIP及MRCP协议接入进行封装，兼容两种协议的语音流来源。除了语音流本身的处理，还实现了呼叫中心特有的呼叫随路信息的处理技术。

本发明摒弃MRCP协议栈所提供的呼叫中心和AI语音能力引擎绑定的媒体资源调用处理流程，通过对RTP语音包和呼叫随路信息的抓包分析，对呼叫中心和AI语音能力引擎进行解耦，以http协议支持上层不同呼叫中心语音输入和多业务应用的接入，对下游则支持异厂商及异构语音能力引擎的对接，还提供不同租户接入的并发授权控制管理功能。

本发明使用主被叫号码或呼叫中心坐席号或分机号进行语音能力签约注册，实现语音能力灵活管理，从呼叫随路信息进行分析匹配已签约的语音能力并自动调用。

并且，本发明在后续应用场景中，可以复合调用多种实时语音应用服务，包括声纹识别、语音识别、录音等。作为一个基础开发平台系统提升上层其他语音应用的开发效率和降低成本。

本发明实施例还提供一种多场景下的实时语音匹配设备，包括处理器。存储器，其中存储有处理器的可执行指令。其中，处理器配置为经由执行可执行指令来执行的多场景下的实时语音匹配方法的步骤。

如上所示，该实施例本发明的多场景下的实时语音匹配系统能够兼容两种协议的语音流来源，通过复合调用多种实时语音应用服务的灵活配置来管理不同的业务场景，提高语音服务的精细化程度，增强用户体验。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“平台”。

图6是本发明的多场景下的实时语音匹配设备的结构示意图。下面参照图6来描述根据本发明的这种实施方式的电子设备600。图6显示的电子设备600仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于：至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。

其中，存储单元存储有程序代码，程序代码可以被处理单元610执行，使得处理单元610执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如，处理单元610可以执行如图1中所示的步骤。

存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202，还可以进一步包括只读存储单元(ROM)6203。

存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204，这样的程序模块6205包括但不限于：处理系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备600交互的设备通信，和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且，电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。

本发明实施例还提供一种计算机可读存储介质，用于存储程序，程序被执行时实现的多场景下的实时语音匹配方法的步骤。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。

根据本发明的实施方式的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明处理的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

综上，本发明的目的在于提供多场景的语音服务实时匹配方法、系统、设备及存储介质，能够兼容两种协议的语音流来源，通过复合调用多种实时语音应用服务的灵活配置来管理不同的业务场景，提高语音服务的精细化程度，增强用户体验。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种多场景下的实时语音匹配方法，其特征在于，包括：

2.根据权利要求1所述的多场景下的实时语音匹配方法，其特征在于，所述服务端设备至少基于所述呼叫信息对应的语音业务处理所述语音包的语音包之后，还包括：基于同一个呼叫的主叫语音的语音包或者被叫语音的语音包建立一会话，所述会话进行语音包的缓存。

3.根据权利要求2所述的多场景下的实时语音匹配方法，其特征在于，所述基于同一个呼叫的主叫语音的语音包或者被叫语音的语音包建立一会话，所述会话进行语音包的缓存之后，还包括：

4.根据权利要求1所述的多场景下的实时语音匹配方法，其特征在于，所述服务端设备将基于会话初始协议的网络包进行协议转换，转换为媒体资源控制协议的网络包，包括：

5.根据权利要求4所述的多场景下的实时语音匹配方法，其特征在于，所述主叫侧的网络包和被叫侧的网络包各自包括对应的RTP语音端口。

6.根据权利要求4所述的多场景下的实时语音匹配方法，其特征在于，所述将一基于会话初始协议的呼叫拆分并构造为基于媒体资源控制协议的主叫侧的网络包和被叫侧的网络包，还包括：

7.根据权利要求6所述的多场景下的实时语音匹配方法，其特征在于，所述消息字段包括主叫号码、被叫号码、坐席分机号，坐席IP地址及呼叫编号中的至少一个。

8.一种多场景下的实时语音匹配系统，其特征在于，包括：

9.一种多场景下的实时语音匹配设备，其特征在于，包括：

处理器；

存储器，其中存储有所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至7任意一项所述多场景下的实时语音匹配方法的步骤。

10.一种计算机可读存储介质，用于存储程序，其特征在于，所述程序被处理器执行时实现权利要求1至7任意一项所述多场景下的实时语音匹配方法的步骤。