CN113129865A

CN113129865A - 通信语音转写AI connector中间元件的处理方法和装置

Info

Publication number: CN113129865A
Application number: CN202110246570.9A
Authority: CN
Inventors: 温文声; 金健; 敖荣徽; 许健君; 许程冲; 赵文博; 吕召彪
Original assignee: China Unicom Guangdong Industrial Internet Co Ltd
Current assignee: China Unicom Guangdong Industrial Internet Co Ltd
Priority date: 2021-03-05
Filing date: 2021-03-05
Publication date: 2021-07-16

Abstract

本发明公开了一种通信语音转写AI connector中间元件的处理方法和装置，处理方法包括MRCP服务端从MRCP客户端获取语音流，请求ASR引擎识别语音流，将识别果发送至AI模型，AI模型对识别结果进行AI识别文本纠正，将纠正结果推送至用户侧应用系统等步骤。本发明将MRCP服务的实时识别结果通过高性能RPC推送到AI模型，纠正后的识别结果导出到JAVA WEB服务，不再经过软交换，实现了实时识别的处理与软交换进程分离，提高软交换的稳定性，减少因软交换的运行受到影响而使得话务中断，提高了系统的可靠性和扩展性，能够通过神经网络进行错别字纠正，能够提高准确率。本发明广泛应用于通信语音技术领域。

Description

通信语音转写AI connector中间元件的处理方法和装置

技术领域

本发明涉及通信语音技术领域，尤其是一种通信语音转写AI connector中间元件的处理方法和装置。

背景技术

现有技术实现在语音通话过程中进行实时语音识别，主要是使用两种实现方式。第一种实现方式是开发软交换的插件，直接在软交换中集成各ASR厂商的SDK，识别结果以事件消息的方式使用socket的方式返回，这种实现方式的缺点是对接接口单一，例如软交换本身默认的对外开放的编程接口是socket，而开发时不太可能在插件中再集成其他如http,websocket这类接口，增加插件的复杂度，并且软交换和该识别插件运行在同一进程中，一旦插件有问题，将导致整个软交换进程退出，进而导致服务瘫痪，增加了不稳定的风险；第二种实现方式是使用ASR厂商的MRCP服务，目前阿里，百度，讯飞等ASR厂商均提供MRCP方式接入的实时语音识别中间件，但是，这些中间件也仅仅支持标准的MRCP协议，而且源代码是闭源的，它需要通过在软交换中配置MRCP客户端来接入，使用这种方式，同样也是需要懂软交换的技术人员，同样也是以单一的socket返回识别结果。

术语解释：

MRCP：Media Resource Control Protocol的缩写，即媒体资源控制协议；

ASR：Automatic Speech Recognition的缩写，即自动语音识别技术；

API：Application Programming Interface的缩写，即应用程序接口；

RTP：Real-time Transport Protocol的缩写，即实时传送协议；

AI：Artificial Intelligence的缩写，即人工智能。

发明内容

针对上述至少一个技术问题，本发明的目的在于提供一种通信语音转写AIconnector中间元件的处理方法和装置。

一方面，本发明实施例包括一种通信语音转写AI connector中间元件的处理方法，包括：

在接通通话后，MRCP服务端从MRCP客户端获取语音流；

所述MRCP服务端请求ASR引擎识别所述语音流；

所述MRCP服务端经过异步等待获取所述ASR引擎返回的识别结果，将所述识别结果发送至AI模型；

所述AI模型对所述识别结果进行AI识别文本纠正，获得纠正结果；

将所述纠正结果推送至用户侧应用系统。

进一步地，通信语音转写AI connector中间元件的处理方法还包括：

在接通通话时，当检测到软交换的调用，所述MRCP客户端的API启动识别流程。

进一步地，所述MRCP客户端的API启动识别流程，包括：

所述MRCP服务端接受所述MRCP客户端通过SIP代理发起的对MRCP通信和RTP通信的协商；

当完成所述MRCP通信和所述RTP通信的协商，所述MRCP服务端与所述MRCP客户端之间建立起MRCP连接和RTP连接。

进一步地，所述AI模型包括纠错器和判别器；所述纠错器用于对所述识别结果进行AI识别文本纠正，获得纠正文本；所述判别器用于判断所述纠正文本是否被采用，当判断所述纠正文本被采用，以所述纠正文本作为所述纠正结果。

进一步地，所述纠错器包括编码器和解码器；

所述编码器用于从所述识别结果提取因素特征和文本特征；

所述解码器用于对所述因素特征和所述文本特征进行特征融合，获得所述识别结果的整体特征表示，对所述整体特征表示进行转换，获得所述纠正文本。

进一步地，所述判别器包括通用语言模型和行业语言模型；

所述通用语言模型用于获取所述识别结果的第一文本困惑度；

所述行业语言模型用于获取所述纠正文本的第二文本困惑度；

当所述第二文本困惑度低于所述第一文本困惑度，确定采用所述纠正文本，反之确定不采用所述纠正文本。

获取训练数据集；所述训练数据集包括从真实环境收集的ASR识别结果以及所述ASR识别结果对应的标注信息；

通过同音字替换和同义词替换，对所述训练数据集进行数据增强；

以交叉熵作为损失函数，以Adam作为训练优化器，使用所述训练数据集对所述AI模型进行训练。

进一步地，所述将所述纠正结果推送至用户侧应用系统，包括：

使用Java web服务对所述纠正结果进行封装和格式转换；

确定被用户选定的推送方式；

以所述推送方式将所述纠正结果推送至所述用户侧应用系统。

进一步地，所述推送方式包括http、websocket、mq。

另一方面，本发明实施例还包括一种通信语音转写AI connector中间元件的处理装置，包括：

MRCP服务端，用于在接通通话后从MRCP客户端获取语音流，请求ASR引擎识别所述语音流，经过异步等待获取所述ASR引擎返回的识别结果；

AI模型，用于对所述识别结果进行AI识别文本纠正，获得纠正结果；

Java web服务，用于将所述纠正结果推送至用户侧应用系统。

本发明的有益效果是：实施例中的通信语音转写AI connector中间元件的处理方法，将MRCP服务的实时识别结果通过高性能RPC推送到AI模型，纠正后的识别结果导出到JAVA WEB服务，不再经过软交换，实现了实时识别的处理与软交换进程分离，提高软交换的稳定性，减少因软交换的运行受到影响而使得话务中断，大大提高了系统的可靠性和扩展性，能够实时识别结果通过神经网络、机器学习算法进行错别字纠正，能够提高准确率。

附图说明

图1为实施例中通信语音转写AI connector中间元件的处理方法的原理图；

图2为实施例中AI模型的结构图；

图3为实施例中AI模型的工作原理图；

图4为实施例中判别器的结构图。

具体实施方式

本实施例中，通信语音转写AI connector中间元件的处理方法包括以下步骤：

S1.在接通通话时，当检测到软交换的调用，MRCP客户端的API启动识别流程；

S2.在接通通话后，MRCP服务端从MRCP客户端获取语音流；

S3.MRCP服务端请求ASR引擎识别语音流；

S4.MRCP服务端经过异步等待获取ASR引擎返回的识别结果，将识别结果发送至AI模型；

S5.AI模型对识别结果进行AI识别文本纠正，获得纠正结果；

S6.将纠正结果推送至用户侧应用系统。

步骤S1-S6的原理如图1所示。参照图1，在通话双方接通电话时的一刻，软交换调用MRCP客户端的API启动识别流程。首先，MRCP客户端通过SIP协议，经过SIP代理和MRCP服务端进行MRCP的的IP和端口协商和RTP通信的IP和端口协商。具体地，MRCP客户端和MRCP服务端之间的SIP协议、MRCP协议的交互过程，可以按照标准通信协议来进行。

参照图1，MRCP客户端和MRCP服务端协商完成后，MRCP客户端和MRCP服务端之间将建立MRCP和RTP连接。MRCP客户端发送识别请求到MRCP服务端，MRCP服务端应答该请求后，等待MRCP客户端发送语音流，MRCP客户端可以获取语音流并将语音流发送至MRCP服务端。

当接收到MRCP客户端发送的语音流，MRCP服务端将语音流通过各ASR厂商(例如阿里巴巴、百度、讯飞等)的SDK发送到ASR引擎进行识别，并异步等待ASR引擎返回识别结果。当MRCP服务端接收到ASR引擎返回的识别结果后，将识别结果通过RPC推送到AI模型。

AI模型运行人工智能算法程序，纠正识别结果中包含的字词识别错误，获得纠正结果。通过Java web服务对识别结果进行封装，格式转换，使用用户选择的推送方式，将纠正结果通过RPC推送到用户侧应用系统。其中，可供用户选择的推送方式包括http、websocket、mq等。

本实施例中，AI模型的结构如图2所示，AI模型的工作原理如图3所示。参照图2，AI模型包括纠错器和判别器，纠错器用于对识别结果进行AI识别文本纠正，获得纠正文本；判别器用于判断纠正文本是否被采用，当判断纠正文本被采用，以纠正文本作为纠正结果。

纠错器使用神经网络模型实现。参照图2，纠错器执行以下步骤A-D：

A.音素特征提取

首先，利用拼音库将原始文本转换成拼音表示，如：“你好”转换成“ni hao”，其中包含了声母(n、h)及韵母(i、ao)信息，分别将这两部分信息转成独热码表示，然后输入词嵌入模型，以此得到稠密的声母及韵母的向量表示，这两部分向量即代表了文本的音素特征。

B.文本特征提取

为了更好地捕获文本的上下文信息，文本特征抽取阶段采用了BERT(双向transformer编码表示)作为神经网络结构，并借用迁移学习的思路，引入了谷歌发布的预训练模型(该模型基于大量的中文语料训练得到)。该阶段得到向量即文本的特征表示。

C.特征融合

将音素特征提取和文本特征提取得到的三个向量直接拼接，即得到ASR结果的整体特征表示。

D.解码器解码

在解码阶段，直接使用一层全连接层对编码器结果进行转换，得到的特征向量即可利用softmax函数输出最终的预测结果。

本实施例中，使用混合模型实现判别器，其流程是利用语言模型的得分判断纠错器结果是否被采用，最大限度地避免纠错器的错误影响。具体地，参照图4，判别器包括通用语言模型和行业语言模型。判别器除了获取纠错器输出的纠正文本之外，还获取识别结果，然后分别使用通用语言模型和行业语言模型进行处理。

本实施例中，通用语言模型的参数为：

A.语料：引入开源的语料THUCNews作为基础语料。

B.算法：使用Bi-N-Gram算法，这是一种基于统计的语言模型算法，该模型基于这样一种假设：文本中第N个词只与前面N-1个词相关，而与其他词无关。因此，实现思路为：使用一个大小为N的滑动窗口遍历文本，获得一个片段序列，其中每个片段的大小为N；统计这些长度为N的片段里的字序的先后顺序，得到最终的语言模型。N-gram中的N表示滑动窗口的大小，比如Uni-Gram表示一元模型，Bi-Gram表示二元模型，Tri-Gram表示三元模型。这里使用了Tri-Gram的结构；同时，为了更好捕获双向的文本信息，叠加了一层从后向前的N-Gram，因此称之为Bi-N-Gram模型。本实施例中，根据以下公式计算困惑度：

本实施例中，行业语言模型的参数为：

A.语料：使用收集的行业数据作为基础语料。

B.算法：与通用语言模型一致。

使用通用语言模型对ASR引擎返回的识别结果进行打分，所得结果为ASR引擎返回的识别结果对应的文本困惑度即第一文本困惑度；使用行业语言模型对纠正文本进行打分，所得结果为纠正文本对应的文本困惑度即第二文本困惑度。

本实施例中，判别器取文本困惑度较低者作为判别结果。也就是说，当第二文本困惑度低于第一文本困惑度，判别器确定采用纠正文本，相应地以纠正文本作为最终输出的纠正结果，当第二文本困惑度高于第一文本困惑度，判别器确定不采用纠正文本，相应地不以纠正文本作为最终输出的纠正结果。

本实施例中，在使用AI模型执行步骤S5之前，还对AI模型进行训练。对AI模型进行训练的步骤包括：

P1.获取训练数据集；训练数据集包括从真实环境收集的ASR识别结果以及ASR识别结果对应的标注信息；

P2.通过同音字替换和同义词替换，对训练数据集进行数据增强；

P3以交叉熵作为损失函数，以Adam作为训练优化器，使用训练数据集对AI模型进行训练。

步骤P1中，所使用的训练数据集为真实环境收集的ASR识别结果，并通过人工标注得到。步骤P2中，为了丰富训练数据，使用了同音字替换，同义词替换等数据增强方式，最终收集到的数据集共13000个样本。步骤P3中，使用了交叉熵作为损失函数，Adam作为训练优化器，最终模型收敛后在测试数据集上的文本纠正精度达到97.4％。

本实施例中的通信语音转写AI connector中间元件的处理方法，其原理在于：

(1)将MRCP服务的实时识别结果通过高性能RPC推送到AI模型，纠正后的识别结果导出到JAVA WEB服务，不再经过软交换。该JAVA WEB服务提供http、websocket、mq等多种回调接口，方便用户选用，仅要求技术人员具有J2EE领域的初步知识即可熟练操作，大大降低了用人成本；

(2)实现了实时识别的处理与软交换进程分离，容易及时发现实时识别处理过程出现或存在的问题，提高软交换的稳定性，减少因软交换的运行受到影响而使得话务中断，大大提高了系统的可靠性和扩展性；

(3)支持以websocket的编程接口方式，将电话中对话的双路语音流推送给用户侧应用系统，满足用户的需求，用户不再需要相关技术人员部署软交换即可获得语音流，能够提高语音流推送的能力；

(4)实时识别结果通过神经网络、机器学习算法进行错别字纠正，能够提高准确率。

本实施例中，可以使用通信语音转写AI connector中间元件的处理装置来执行通信语音转写AI connector中间元件的处理方法。其中，通信语音转写AI connector中间元件的处理装置包括：

MRCP服务端，用于在接通通话后从MRCP客户端获取语音流，请求ASR引擎识别语音流，经过异步等待获取ASR引擎返回的识别结果；

AI模型，用于对识别结果进行AI识别文本纠正，获得纠正结果；

Java web服务，用于将纠正结果推送至用户侧应用系统。

其中，MRCP服务端、AI模型和Java web服务可以分别由不同的计算机终端来运行，也可以由同一计算机终端运行在不同的进程上，从而实现实施例中通信语音转写AIconnector中间元件的处理方法的技术效果。

需要说明的是，如无特殊说明，当某一特征被称为“固定”、“连接”在另一个特征，它可以直接固定、连接在另一个特征上，也可以间接地固定、连接在另一个特征上。此外，本公开中所使用的上、下、左、右等描述仅仅是相对于附图中本公开各组成部分的相互位置关系来说的。在本公开中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。此外，除非另有定义，本实施例所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本实施例说明书中所使用的术语只是为了描述具体的实施例，而不是为了限制本发明。本实施例所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种元件，但这些元件不应限于这些术语。这些术语仅用来将同一类型的元件彼此区分开。例如，在不脱离本公开范围的情况下，第一元件也可以被称为第二元件，类似地，第二元件也可以被称为第一元件。本实施例所提供的任何以及所有实例或示例性语言(“例如”、“如”等)的使用仅意图更好地说明本发明的实施例，并且除非另外要求，否则不会对本发明的范围施加限制。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本实施例描述的过程的操作，除非本实施例另外指示或以其他方式明显地与上下文矛盾。本实施例描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本实施例所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。

计算机程序能够应用于输入数据以执行本实施例所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

以上所述，只是本发明的较佳实施例而已，本发明并不局限于上述实施方式，只要其以相同的手段达到本发明的技术效果，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。

Claims

1.一种通信语音转写AI connector中间元件的处理方法，其特征在于，包括：

在接通通话后，MRCP服务端从MRCP客户端获取语音流；

所述MRCP服务端请求ASR引擎识别所述语音流；

将所述纠正结果推送至用户侧应用系统。

2.根据权利要求1所述的通信语音转写AI connector中间元件的处理方法，其特征在于，还包括：

3.根据权利要求2所述的通信语音转写AI connector中间元件的处理方法，其特征在于，所述MRCP客户端的API启动识别流程，包括：

4.根据权利要求1-3任一项所述的通信语音转写AI connector中间元件的处理方法，其特征在于，所述AI模型包括纠错器和判别器；所述纠错器用于对所述识别结果进行AI识别文本纠正，获得纠正文本；所述判别器用于判断所述纠正文本是否被采用，当判断所述纠正文本被采用，以所述纠正文本作为所述纠正结果。

5.根据权利要求4所述的通信语音转写AI connector中间元件的处理方法，其特征在于，所述纠错器包括编码器和解码器；

所述编码器用于从所述识别结果提取因素特征和文本特征；

6.根据权利要求4所述的通信语音转写AI connector中间元件的处理方法，其特征在于，所述判别器包括通用语言模型和行业语言模型；

7.根据权利要求4所述的通信语音转写AI connector中间元件的处理方法，其特征在于，还包括：

8.根据权利要求1所述的通信语音转写AI connector中间元件的处理方法，其特征在于，所述将所述纠正结果推送至用户侧应用系统，包括：

使用Java web服务对所述纠正结果进行封装和格式转换；

确定被用户选定的推送方式；

9.根据权利要求8所述的通信语音转写AI connector中间元件的处理方法，其特征在于，所述推送方式包括http、websocket、mq。

10.一种通信语音转写AI connector中间元件的处理装置，其特征在于，包括：

Java web服务，用于将所述纠正结果推送至用户侧应用系统。