CN114387971A

CN114387971A - 一种基于实时语音信令解析的多语音识别引擎调用的方法

Info

Publication number: CN114387971A
Application number: CN202111530731.3A
Authority: CN
Inventors: 陈萍; 陈辉; 薄萌萌; 沙淮; 董明昱
Original assignee: Jiangsu Best Tone Information Service Co ltd
Current assignee: Jiangsu Best Tone Information Service Co ltd
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-04-22

Abstract

本发明公开了一种基于实时语音信令解析的多语音识别引擎调用的方法，该方法主要包括：语音信令和媒体实时解析服务器获取实时语音流、语音识别启动通知和翻译中转分发服务调用ASR服务引擎进行语音识别三个处理流程；其中，获取实时语音流主要是对实时语音数据包进行获取和解析；语音识别启动通知主要包含通话流程实时控制和翻译中转分发服务调用；语音识别主要包括调用ASR服务引擎选择、ASR服务接口入参准备和执行ASR服务获取翻译结果。本发明解决了呼叫中心在使用标准MRCP协议对接语音识别引擎带来的难以灵活调用多语音引擎、语音延迟和字长限制的问题；同时，本发明属于无损无入侵改造，具有普适性和低门槛的优势。

Description

一种基于实时语音信令解析的多语音识别引擎调用的方法

技术领域

本发明涉及一种基于实时语音信令解析的多语音识别引擎调用的方法，属于智能语音技术领域。

背景技术

随着我国互联网和人工智能技术的快速发展，智能语音技术也取得突破性进展，使得基于语音的人机交互技术的应用越来越广泛，在各行业为人们提供更加便捷的服务。智能客服是智能语音技术的重要应用场景，相较于传统的人工客服，智能客服可以24小时无休，精准对客户进行分类，智能识别用户意图，大大提高了工作量，减轻了企业的生产成本。呼叫中心系统具有大容量、高稳定性、高处理能力、功能完善等优点，被各大运营商服务中心、国有企业服务中心、政府部门的服务中心所采用。因此，基于呼叫中心系统建立的智能通话平台具有广阔的应用前景。

智能客服进行意图识别的前提是获取到用户语音转换成的文字信息，在用户和智能客服交互过程中，传统对接语音识别引擎(ASR)的方法，是通过呼叫中心内置的MRCP-client模块，调用外部MRCP-server模块，MRCP模块调用语音引擎服务。通话开始后，智能对话流程控制代码通过呼叫中心封装的识别收号方法通知MRCP-client模块开始调用MRCP-server及ASR语音识别服务，同时执行事件等待方法，形成人为阻塞，直到用户说完话，ASR服务返回翻译的文本信息，事件等待方法捕捉到翻译结束信号，获取翻译文本并传送给智能客服后台处理。

但是，这种调用语音识别引擎的方式会带来以下一些问题和不可预料风险：

(1)呼叫中心一般只能对接一种语音识别引擎。

呼叫中心使用基于MRCP协议技术的传统语音识别引擎对接方式时，语音识别引擎提供商为降低呼叫中心使用门槛，一般会同时提供配套的标准MRCP-server模块服务，MRCP-server模块后对接语音识别引擎。一般情况下，呼叫中心内置的MRCP-client和外部的MRCP-server都是通过标准MRCPV2协议对接，而MRCP-server和不同语音识别引擎的对接协议是非标准的和个性化的，视不同语音识别引擎而定。从便利性和排他性出发，语音识别引擎的服务商提供的MRCP-server服务只适用于自己的语音识别引擎接口。因此，呼叫中心往往只能加载一种语音识别引擎。这在实际应用中带来了两个问题，一是_{以立即播放！}呼叫中心往往无法再增加对接其他语音识别引擎；二是呼叫中心无法根据使用场景灵活的调用不同的语音识别引擎。

(2)存在智能客服的响应时间变长的风险。

在一些传统呼叫中心对接MRCP-server和语音识别引擎的过程中，往往存在呼叫中心内置MRCP-client向MRCP-server和语音识别引擎发起调用延迟的问题。以目前华为UAP6600呼叫中心为例，延迟时间为600ms，极大地影响了用户的使用体验。

(3)呼叫中心接收的用户语音翻译的字符串有限制文本长度的风险。

以目前华为UAP6600呼叫中心为例，通过MRCPV2协议从外部MRCP-server和ASR返回的字符串长度最多为19字。一旦字符串长度超过阈值，字符串会被截断，这可能会造成一些重要信息的丢失，从而影响智能客服的判断和决策。

(4)改造和调试呼叫中心存在一定难度。

最后，呼叫中心在通过MRCP协议对接外部MRCP-server及语音识别引擎时，需要对原呼叫中心进行内部改造和调试，存在一定难度。

发明内容

本发明的目的是建立一种普适于呼叫中心的基于实时语音信令和媒体解析技术的多语音识别引擎动态调用方法，不需要对呼叫中心进行改造和调试，具有普适性和低门槛的优势，而且解决了传统调用方法难以灵活调用多语音引擎、语音延迟和字长限制的问题。

为实现上述目的，本发明采取的技术方案如下：

一方面，本发明提供了一种基于实时语音信令解析的多语音识别引擎调用的方法，该方法包括以下三个流程：

(1)实时语音获取流程：在呼叫中心系统交换机开启镜像服务，语音信令和媒体实时解析服务器对实时抓取的语音数据包进行解析，获取实时语音流信息；

(2)语音识别启动通知过程：在交互控制流程脚本中给出翻译中转分发服务接口路径，监听的用户号码，ASR服务引擎类型，通过http请求发起调用；

(3)翻译中转分发服务调用ASR服务引擎进行语音识别过程：翻译中转分发服务接到交互控制流程脚本的调用，得到监听的用户号码和ASR服务引擎类型，从而去获取监听号码实时语音流信息，执行ASR服务。

进一步的，所述流程(1)用于对实时语音数据包进行获取和解析，具体步骤如下：

步骤1.1：语音数据包获取；当用户跟智能客服进行通话时，呼叫中心系统会实时获取用户发来的语音数据包，语音数据包会经过呼叫中心系统的交换机，在交换机上开启一个镜像服务，将实时抓取的语音数据包发往语音信令和媒体实时解析服务器；

步骤1.2：语音数据包解析；语音信令和媒体实时解析服务器将抓取来的语音数据包进行解析，通过SIP数据包获取主叫信息、被叫信息、正向媒体流IP及端口、反向媒体流IP及端口，继而解析RTP数据包中携带的媒体流信息，即ASR服务所需的语音流信息。

进一步的，所述流程(2)包含通话流程实时控制、翻译中转分发服务调用，具体步骤如下：

步骤2.1：通话流程实时控制；在呼叫中心平台中进行智能对话，通过加载按呼叫中心语音规范编写的交互控制流程脚本来实现，通话流程按编写好的文档来进行；

步骤2.2：翻译中转分发服务调用；交互控制流程脚本进行到客服回答播放结束后，即可向翻译中转分发服务发起调用，通知语音识别可以开始启动。

更进一步的，所述步骤2.1中，通话流程为播放客服开场白、获取客户问题、播放客服回答并询问是否有其他问题、再次获取客户问题，循环进行客服客户对话直到流程结束；在通话流程中，可捕捉到客服回答播放结束，客户提问即将开始的时间。

更进一步的，所述步骤2.2中，交互控制流程脚本直接发起http请求调用翻译中转分发服务，并传递监听用户的号码以及ASR服务引擎类型两个参数；翻译中转分发服务收到调用后立刻开启语音识别，通话从此时开始阻塞，直到用户说话结束，翻译中转分发服务接口即刻返回翻译结果给交互控制流程，交互控制流程脚本继续向下执行。

进一步的，所述流程(3)包括调用ASR服务引擎选择、ASR服务接口入参准备和执行ASR服务获取翻译结果，具体步骤如下：

步骤3.1：ASR服务引擎选择；根据交互控制流程脚本发来的ASR服务引擎类型，选择对应的ASR服务；

步骤3.2：ASR服务接口入参准备；不同的ASR服务接口规范入参有所不同，选择好ASR服务引擎后，根据所选ASR服务接口规范准备入参，除自定义参数外，所有ASR服务接口均需要获取实时语音流信息作为入参，根据交互控制流程脚本发来的监听客户号码参数从流程(1)中获取的实时语音数据包中解析出该号码携带的语音流信息；

步骤3.2：执行ASR服务；入参准备好后，向对应的ASR服务接口发起调用，用户说话过程中，不断向ASR服务接口发送语音流信息，ASR服务接口接收到语音流信息，执行ASR服务，用户说话结束后，ASR服务捕捉到静音，结束本次翻译；

步骤3.4：获取翻译结果；将翻译结果作为本次ASR服务调用的结果返回给翻译中转分发服务，翻译中转分发服务再将翻译结果返回给交互控制流程，结束本次翻译任务调用。

另一方面，本发明还提供了一种基于实时语音信令解析的多语音识别引擎调用的系统，其特征在于，该系统包括以下模块：

实时语音获取模块，用于通过搭建语音信令和媒体实时解析服务器，实时获取呼叫详细信息；通过部署连接呼叫中心系统交换机上联口镜像端口的语音信令和媒体实时解析服务器，获取实时获取语音数据包，并从中解析主叫信息、被叫信息、时间戳、正向媒体流IP及端口、反向媒体流IP及端口；

语音识别启动通知模块，用于交互控制流程脚本构建语音识别的动作，并通过将主被叫信息与语音信令和媒体实时解析服务解析到的主被叫信息进行关联，获取媒体流信息；在交互控制流程脚本使用标准http请求，告知语音信令和媒体实时解析服务器需要进行识别通话的主被叫信息，以获取双向媒体流的IP和端口信息，同时告知ASR服务引擎类别，语音信令和媒体实时解析服务器与语音识别引擎交互后，获取用户实时通话语音翻译结果。

语音识别模块，即翻译中转分发服务调用ASR服务引擎进行语音识别模块，主要通过在语音信令和媒体实时解析服务器上完成不同ASR服务引擎的接口对接，搭建一个多引擎调用服务；语音信令和媒体实时解析服务器接收到交互控制流程发来的识别需求及场景，并确认媒体流IP和端口后，按场景将实时媒体流送入不同的引擎，引擎完成翻译，并将识别结果反馈回交互控制流程。

本发明的有益效果如下：

本发明设计了在一个智能通话场景下，通过语音信令和媒体实时解析服务器对实时语音流进行监控，从而不使用MRCP协议通过通用http协议进行语音识别的方法，解决了呼叫中心在使用标准MRCP协议对接语音识别引擎带来的难以灵活调用多语音引擎、语音延迟和字长限制的问题。同时，本发明不需要呼叫中心使用MRCP协议去对接外部MRCP-server，不需要呼叫中心进行内部调试和改造，仅需要在呼叫中心交换机上联口镜像监听，属于无损无入侵改造，具有普适性和低门槛的优势。

本发明一是利用一个语音信令和媒体实时解析服务器对通话录音进行获取和解析，通过呼叫中心系统交换机的镜像服务可以实时抓取通话过程的语音数据包，首先解析SIP数据包，从中获取主叫信息、被叫信息、时间戳、正向媒体流IP及端口、反向媒体流IP及端口，继而可以通过媒体流IP和端口获取媒体流信息，解决了实际应用中实时通话语音获取难和对呼叫中心系统依赖性强的问题。其优势首先是实时性，只有获取到实时的通话语音才能将其进行实时转发，进行实时的语音识别来维持通话过程。其次是对呼叫中心系统的依赖性降低，若是直接使用呼叫中心系统获取到的语音数据包进行语音识别，必然得使用呼叫中心平台提供的内置的MRCP-client和语音识别引擎的服务商提供的MRCP-server服务通过标准MRCPV2协议进行对接，调用语音识别服务。而通过语音信令和媒体实时解析服务器，便会减少对呼叫中心系统的依赖，继而可以想办法不通过MRCP协议进行语音识别。

本发明二是在交互控制流程脚本中进行语音识别开始信号的通知，通过发送http请求到翻译中转分发服务，实时告知语音识别开始，告知监听客户号码与ASR服务引擎类别。其优势一是能够及时判断语音识别信号的开始并进行通知；其优势二是可以利用交互控制流程脚本能直接调用标准http接口且调用接口时自然阻塞等待接口返回的特性，获取用户实时通话语音翻译结果。

本发明三是在语音信令和媒体实时解析服务器上自定义翻译中转分发服务接口，从交互控制流程脚本接收需要监听的用户号码，ASR服务引擎类型，通过需要监听的用户号码从语音信令和媒体实时解析服务器的语音流信息中捕捉到需要进行语音识别的实时语音流信息，通过http协议向交互控制流程指定的ASR服务接口发送实时语音流信息，从而调用ASR服务进行语音识别。其优势一是可以灵活调用不同的ASR服务，解决了MRCP协议与ASR服务一一绑定的问题，按场景将实时媒体流送入不同的语音识别引擎引擎。二是解决了通话延时的问题，相比于呼叫中心使用MRCP协议发起ASR服务调用的延迟，翻译中转分发服务接口在接到语音识别的通知后会立马通过http请求向ASR服务接口发起语音识别的调用。三是解决了呼叫中心系统对接收到的字符串文本长度限制的问题，使得智能客服能够获得更加完备的语音转文字信息，做出更加准确的判断。

附图说明

图1是本发明的总体流程图。

图2是本发明中语音信令和媒体实时解析服务器获取实时语音流流程图。

图3是本发明中语音识别启动通知过程流程图。

图4是本发明中翻译中转分发服务调用ASR服务引擎进行语音识别流程图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例一。

本实施例提供一种普适于呼叫中心的基于实时语音信令和媒体解析技术的多语音识别引擎动态调用的方法。

首先，假设需要对一通加载在呼叫中心上的智能通话过程进行用户语音识别，且要求在不同通话场景中调用不同的ASR服务引擎来做语音转写。首先要实时获取通话过程中的用户语音数据包，尤其是获取主被叫信息及媒体流信息，以便传输相应媒体流信息与ASR服务引擎直接对接；其次需要对不同的ASR服务引擎调用方式进行集成，统一成一个翻译中转分发服务，通话过程中调用该中转服务时，只需传递主叫号码与ASR服务类别，即可调用不同的语音引擎服务；最后需要在通话流程中实时通知翻译中转分发服务用户开始说话的动作，以便翻译中转分发服务在用户开始说话时启动对ASR服务的调用。

因此按照时间顺序，如图1所示，本方法在通过呼叫中心平台进行语音通话的过程中，通过语音信令和媒体实时解析服务器上搭建的翻译中转分发服务调用ASR服务接口进行语音识别，其过程主要包含三个部分，分别是语音信令和媒体实时解析服务器获取实时语音流过程(如图2)、语音识别启动通知过程(如图3)和翻译中转分发服务调用ASR服务引擎进行语音识别过程(如图4)。其中：

(一)语音信令和媒体实时解析服务器获取实时语音流过程。

步骤1、语音数据包获取。用户在通过呼叫中心进行通话的过程中，语音数据包会经过呼叫中心系统的交换机，在交换机开启一个镜像服务，实时抓取的语音数据包发往语音信令和媒体实时解析服务器；

步骤2、语音数据包解析。语音信令和媒体实时解析服务器将实时抓取的语音数据包进行解析，具体解析过程如下：

步骤2.1、建立通话连接，首先解析用户发来的SIP数据包,解析出携带的INVITE数据，获得主叫信息；接着解析SDP数据包，解析获得主叫的IP和媒体端口号。被叫接听电话后回传200OK给主叫，主叫收到200OK以后以ACK进行应答，被叫也会向主叫发送SIP和SDP数据包，可以从中解析出被叫信息，被叫IP和媒体端口号。至此通话连接建立成功；

步骤2.2、解析RTP数据包。接收用户发来的RTP数据包，根据源IP和其端口号，获取RTP包中的媒体流信息，即语音流信息；

步骤2.3、重复步骤2.2，不断地对用户RTP数据包携带的语音流信息进行解析，若任何一方发送BYE请求，整个通话连接断开，会话结束。

(二)语音识别启动通知过程。

步骤1、呼叫中心接收到通话请求后，会按顺序执行交互控制流程脚本，执行各种电话交互功能，一般流程为：(1)播放客服开场白；(2)获取客户问题；(3)播放客服回答并询问是否有其他问题；(4)重复步骤(2)-(3)；(5)对话流程结束。在整个通话流程中，可以捕捉到客户提问即将开始的时间；

步骤2、交互控制流程脚本在播放完开场白或者客服回答结束后，立即向翻译中转分发服务发起调用，正式开始启动语音识别服务。交互控制流程脚本发起http请求调用翻译中转分发服务，给出翻译中转分发服务接口路径，http请求的类型(get或者post请求)，主叫号或者被叫号(一般接听类传主叫，呼出时传被叫)，ASR服务引擎的类型。调用http请求之后交互控制流程脚本开启阻塞模式，直到用户说话结束，从翻译中转分发服务接口得到翻译的字符串文本信息，智能客服流程继续向下进行。

(三)翻译中转分发服务调用ASR服务引擎进行语音识别过程。

步骤1、翻译中转分发服务接到交互控制流程脚本的调用，得到要监听用户的号码和ASR服务引擎类型；

步骤2、根据ASR服务引擎类型，准备好对应ASR服务接口所需要的参数。每个ASR服务接口接收的参数各不相同，但是均需要获得实时语音信息流。根据交互控制流程脚本发来的监听的用户号码，从语音信令和媒体实时解析服务器获取实时的语音流信息(语音流信息的获取见流程(一))；

步骤3、自定义参数信息与语音流信息准备好后，立即通过http请求向对应的ASR服务接口发起调用，在用户说话过程中，因为语音信息流是一个持续不断的过程，所以翻译中转分发服务会持续调用ASR服务接口，传递语音流信息；

步骤4、ASR服务接口接收到语音流信息，执行ASR服务，将收到语音流信息翻译成字符串文本；

步骤5、当用户说话结束后，ASR服务捕捉并识别出静音，从而会结束本次翻译，将翻译的字符串文本作为本次调用的结果返回给翻译中转分发服务；

步骤6、翻译中转分发服务将获得的字符串文本返回给交互控制流程脚本，本次翻译任务结束；

步骤7、交互控制流程脚本拿到翻译的字符串文本信息后，结束阻塞，执行接下来的流程。

实施例二。

本实施例提供一种基于实时语音信令解析的多语音识别引擎调用的系统，该系统包括以下模块：

综上，本发明解决了呼叫中心中的智能通话必须通过MRCP才能调用ASR服务引擎的多种限制，能灵活调用各种ASR服务，实时翻译无延迟，获取到的语音翻译结果无字数限制，更加具有普适性。

以上显示和描述了本发明的基本原理、主要特征和优点。本领域的普通技术人员应该了解，上述实施例不以任何形式限制本发明的保护范围，凡采用等同替换等方式所获得的技术方案，均落于本发明的保护范围内。

本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。

Claims

1.一种基于实时语音信令解析的多语音识别引擎调用的方法，其特征在于，该方法包括以下三个流程：

2.根据权利要求1所述的一种基于实时语音信令解析的多语音识别引擎调用的方法，其特征在于，所述流程(1)用于对实时语音数据包进行获取和解析，具体步骤如下：

3.根据权利要求1所述的一种基于实时语音信令解析的多语音识别引擎调用的方法，其特征在于，所述流程(2)包含通话流程实时控制、翻译中转分发服务调用，具体步骤如下：

4.根据权利要求3所述的一种基于实时语音信令解析的多语音识别引擎调用的方法，其特征在于，所述步骤2.1中，通话流程为播放客服开场白、获取客户问题、播放客服回答并询问是否有其他问题、再次获取客户问题，循环进行客服客户对话直到流程结束；在通话流程中，可捕捉到客服回答播放结束，客户提问即将开始的时间。

5.根据权利要求3所述的一种基于实时语音信令解析的多语音识别引擎调用的方法，其特征在于，所述步骤2.2中，交互控制流程脚本直接发起http请求调用翻译中转分发服务，并传递监听用户的号码以及ASR服务引擎类型两个参数；翻译中转分发服务收到调用后立刻开启语音识别，通话从此时开始阻塞，直到用户说话结束，翻译中转分发服务接口即刻返回翻译结果给交互控制流程，交互控制流程脚本继续向下执行。

6.根据权利要求1所述的一种基于实时语音信令解析的多语音识别引擎调用的方法，其特征在于，所述流程(3)包括调用ASR服务引擎选择、ASR服务接口入参准备和执行ASR服务获取翻译结果，具体步骤如下：

7.一种基于实时语音信令解析的多语音识别引擎调用的系统，其特征在于，该系统包括以下模块：

实时语音获取模块，用于通过搭建语音信令和媒体实时解析服务器，实时获取呼叫详细信息；

语音识别启动通知模块，用于交互控制流程脚本构建语音识别的动作，并通过将主被叫信息与语音信令和媒体实时解析服务解析到的主被叫信息进行关联，获取媒体流信息；

语音识别模块，通过在语音信令和媒体实时解析服务器上完成不同ASR服务引擎的接口对接，搭建一个多引擎调用服务；语音信令和媒体实时解析服务器接收到交互控制流程发来的识别需求及场景，并确认媒体流IP和端口后，按场景将实时媒体流送入不同的引擎，引擎完成翻译，并将识别结果反馈回交互控制流程。

8.根据权利要求7所述的一种基于实时语音信令解析的多语音识别引擎调用的系统，其特征在于，所述实时语音获取模块通过部署连接呼叫中心系统交换机上联口镜像端口的语音信令和媒体实时解析服务器，获取实时获取语音数据包，并从中解析主叫信息、被叫信息、时间戳、正向媒体流IP及端口、反向媒体流IP及端口；所述语音识别启动通知模块，通过在交互控制流程脚本使用标准http请求，告知语音信令和媒体实时解析服务器需要进行识别通话的主被叫信息，以获取双向媒体流的IP和端口信息，同时告知ASR服务引擎类别，语音信令和媒体实时解析服务器与语音识别引擎交互后，获取用户实时通话语音翻译结果。