CN110534084B

CN110534084B - 一种基于FreeSWITCH的智能语音控制方法及系统

Info

Publication number: CN110534084B
Application number: CN201910723198.9A
Authority: CN
Inventors: 陈开冉; 黎展; 王木
Original assignee: Guangzhou Tungee Technology Co ltd
Current assignee: Guangzhou Tungee Technology Co ltd
Priority date: 2019-08-06
Filing date: 2019-08-06
Publication date: 2022-05-13
Anticipated expiration: 2039-08-06
Also published as: CN110534084A

Abstract

本发明公开了基于FreeSWITCH的智能语音控制方法，通过FreeSWITCH获取第一用户输入的音频数据，并将音频数据发送至ASR模块，以使ASR模块对音频数据进行语音识别，并监听ASR模块对音频数据的语音识别，得到语音识别结果，然后将语音识别结果发送至业务系统，以使业务系统对语音识别结果进行应答同时生成应答结果，再将应答结果发送至TTS模块，以使TTS模块根据应答结果合成对应的应答音频数据，并将应答音频数据发送至FreeSWITCH；当FreeSWITCH在接收到应答音频数据后，将应答音频数据返回至第一用户，能够降低ASR和TTS的响应延迟，提高了ASR的识别准确率，并且可以极大的提高用户体验。

Description

一种基于FreeSWITCH的智能语音控制方法及系统

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于FreeSWITCH的智能语音控制方法及系统。

背景技术

现有的智能语音控制系统主要含有两个模块，一个是FreeSWITCH的插件，负责对语音流进行端点检测(即检测用户开始说一句话的时间点和结束一句话的时间点)，并且在用户开始说话时调用FreeSWITCH的系统命令录音，直到用户说话这句话为止。之后再调用ASR(语音识别)识别录音，把文本发送给另外一个模块。在使用TTS(语音合成)的时候，则是先合成一个录音文件，再调用系统的播音命令播放该文件。另外一个模块在接收到文本之后，会回调给业务系统，并且提供播音、打断、挂机和转接等多种操作接口给业务系统调用。使用这两个模块，可以很容易的控制呼叫中的语音控制。

但现有的智能语音控制系统具有以下几个缺陷：

(1)、使用先录音、后识别的方式会造成很大的延迟，特别是用户的一句话很长的时候，延迟会更大；

(2)、在识别到用户说话后再开始录音，不可避免的会丢失掉一部分音频数据，影响最终的ASR识别准确率；

(3)、在通话过程中不断的开始、停止录音，会造成系统的延迟，也会带来很大的性能开销；

(4)、只能识别出完整的一句话文本后才能进行下一步操作，导致语音控制流程不够智能，用户体验不好；

(5)、使用TTS的时候先生成录音再播放也会带来很大的延迟，而且需合成的文本越长，延迟也越大。

发明内容

本发明实施例的目的是提供一种基于FreeSWITCH的智能语音控制方法，能够降低ASR和TTS的响应延迟，提高了ASR的识别准确率，并且可以极大的提高用户体验。

为实现上述目的，本发明实施例提供了一种基于FreeSWITCH的智能语音控制方法，包括以下步骤：

通过FreeSWITCH获取第一用户输入的音频数据，并将所述音频数据发送至ASR模块，以使所述ASR模块对所述音频数据进行语音识别；

监听所述ASR模块对所述音频数据的语音识别，得到语音识别结果；

将所述语音识别结果发送至业务系统，以使所述业务系统对所述语音识别结果进行应答同时生成应答结果；

将所述应答结果发送至TTS模块，以使所述TTS模块根据所述应答结果合成对应的应答音频数据，并将所述应答音频数据发送至所述FreeSWITCH；

当所述FreeSWITCH在接收到所述应答音频数据后，将所述应答音频数据返回至所述第一用户。

进一步的，所述通过FreeSWITCH获取用户输入的音频数据，并将所述音频数据发送至ASR模块，以使所述ASR模块对所述音频数据进行语音识别，具体为：

通过FreeSWITCH的media bug功能获取第一用户输入的音频数据，并通过ASR模块的SDK与ASR引擎建立socket连接；

将所述音频数据通过socket发送至所述ASR引擎，以供所述ASR引擎对所述音频数据进行识别并转化为文本。

进一步的，所述ASR引擎对所述音频数据进行识别，具体为：

对所述音频数据进行语音端点检测，在检测到第一用户的声音后，通过声学模型将所述音频数据转化为音节，在预设时间内未检测到所述第一用户的声音后，通过语言模型将所述音节转化为文本。

进一步的，所述监听所述ASR模块对所述音频数据的语音识别，得到语音识别结果，具体为：

调用SDK的回调函数监听所述ASR引擎对所述音频数据的识别结果，得到所述文本并将所述文本作为语音识别结果。

进一步的，所述业务系统内设有应答引擎、话术图谱以及所有用户的话术配置；

当所述业务系统接收到所述语音识别结果时，提取所述语音识别结果中的第一用户信息，在所述所有用户的话术配置中进行匹配，得到所述第一用户的第一话术配置；

通过所述应答引擎根据所述话术图谱和所述第一话术配置，对所述语音识别结果进行应答，生成应答结果。

优选的，本发明实施例还提供了一种，基于FreeSWITCH的智能语音控制系统，包括：语音获取模块、监听模块、应答模块、语音合成模块以及反馈模块；

所述语音获取模块，用于通过FreeSWITCH获取第一用户输入的音频数据，并将所述音频数据发送至ASR模块，以使所述ASR模块对所述音频数据进行语音识别；

所述监听模块，用于监听所述ASR模块对所述音频数据的语音识别，得到语音识别结果；

所述应答模块，用于将所述语音识别结果发送至业务系统，以使所述业务系统对所述语音识别结果进行应答同时生成应答结果；

所述语音合成模块，用于将所述应答结果发送至TTS模块，以使所述TTS模块根据所述应答结果合成对应的应答音频数据，并将所述应答音频数据发送至所述FreeSWITCH；

所述反馈模块，用于当所述FreeSWITCH在接收到所述应答音频数据后，将所述应答音频数据返回至所述第一用户。

进一步的，所述语音获取模块包括语音获取单元和语音识别单元；

所述语音获取单元，用于通过FreeSWITCH的media bug功能获取第一用户输入的音频数据，并通过ASR模块的SDK与ASR引擎建立socket连接；

所述语音识别单元，用于将所述音频数据通过socket发送至所述ASR引擎，以供所述ASR引擎对所述音频数据进行识别并转化为文本。

进一步的，所述ASR引擎对所述音频数据进行识别，具体为：

进一步的，所述监听模块包括回调监听单元；

所述回调监听单元，用于调用SDK的回调函数监听所述ASR引擎对所述音频数据的识别结果，得到所述文本并将所述文本作为语音识别结果。

与现有技术相比，具有如下有益效果：

本发明实施例提供的基于FreeSWITCH的智能语音控制方法，通过FreeSWITCH获取第一用户输入的音频数据，并将音频数据发送至ASR模块，以使ASR模块对音频数据进行语音识别，并监听ASR模块对音频数据的语音识别，得到语音识别结果，然后将语音识别结果发送至业务系统，以使业务系统对语音识别结果进行应答同时生成应答结果，再将应答结果发送至TTS模块，以使TTS模块根据应答结果合成对应的应答音频数据，并将应答音频数据发送至FreeSWITCH；当FreeSWITCH在接收到应答音频数据后，将应答音频数据返回至第一用户，能够降低ASR和TTS的响应延迟，提高了ASR的识别准确率，并且可以极大的提高用户体验。

附图说明

图1是本发明提供的基于FreeSWITCH的智能语音控制方法的一个实施例的流程示意图；

图2是本发明提供的基于FreeSWITCH的智能语音控制方法的一个实施例的工作原理流程示意图；

图3是本发明提供的基于FreeSWITCH的智能语音控制系统的一个实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1是本发明提供的基于FreeSWITCH的智能语音控制方法的一个实施例的流程示意图；本发明实施例提供一种基于FreeSWITCH的智能语音控制方法，包括步骤S1-S5；

S1，通过FreeSWITCH获取第一用户输入的音频数据，并将所述音频数据发送至ASR模块，以使所述ASR模块对所述音频数据进行语音识别。

在本实施例中，步骤S1具体为：通过FreeSWITCH的media bug功能获取第一用户输入的音频数据，并通过ASR模块的SDK与ASR引擎建立socket连接；将所述音频数据通过socket发送至所述ASR引擎，以供所述ASR引擎对所述音频数据进行识别并转化为文本。

其中，所述ASR引擎对所述音频数据进行识别，具体为：对所述音频数据进行语音端点检测，在检测到第一用户的声音后，通过声学模型将所述音频数据转化为音节，在预设时间内未检测到所述第一用户的声音后，通过语言模型将所述音节转化为文本。

需要说明的是，FreeSWITCH与ASR引擎建立一个socket连接，利用FreeSWITCH的media bug特性获取用户的音频数据后，将数据流持续不断的通过socket连接发送给ASR引擎中，ASR引擎对获取的音频数据流做VAD(语音端点检测)，检测到有用户的声音后，会通过声学模型将音频数据转化为音节，最后在检测到用户一句话结束后通过语言模型将音节变成文本，在得到用户的文本识别结果后，通过socket连接把结果发送给FreeSWITCH。

S2，监听所述ASR模块对所述音频数据的语音识别，得到语音识别结果。

在本实施例中，步骤S2具体为：调用SDK的回调函数监听所述ASR引擎对所述音频数据的识别结果，得到所述文本并将所述文本作为语音识别结果。

需要说明的是，ASR引擎提供了一个SDK，SDK负责创建与ASR引擎的socket连接以及发送和接收消息。SDK提供了一些事件回调函数，例如用户开始说话的事件回调，识别用户说话文本结果的事件回调等。FreeSWITCH通过实现回调函数的具体逻辑来对回调事件做相应的处理。

S3，将所述语音识别结果发送至业务系统，以使所述业务系统对所述语音识别结果进行应答同时生成应答结果。

需要说明的是，所述业务系统内设有应答引擎、话术图谱以及所有用户的话术配置；当所述业务系统接收到所述语音识别结果时，提取所述语音识别结果中的第一用户信息，在所述所有用户的话术配置中进行匹配，得到所述第一用户的第一话术配置；通过所述应答引擎根据所述话术图谱和所述第一话术配置，对所述语音识别结果进行应答，生成应答结果。

在本实施例中，语音控制系统通过ESL(Event-Socket Library)接收FreeSWITCH发送的事件，以及向FreeSWTICH发送需执行的命令，例如播放一段音频或者挂断电话等。在语音控制系统接收到ASR的识别结果之后，会将识别结果发送给业务系统，业务系统根据对话图谱的逻辑以及客户配置的话术得出机器人需要做出的回应。例如：播放一段邀约或者结束对话的语音，利用TTS合成一段音频等。

S4，将所述应答结果发送至TTS模块，以使所述TTS模块根据所述应答结果合成对应的应答音频数据，并将所述应答音频数据发送至所述FreeSWITCH。

S5，当所述FreeSWITCH在接收到所述应答音频数据后，将所述应答音频数据返回至所述第一用户。

请参见图2，为了更好的说明本发明实施例提供的基于FreeSWITCH的智能语音控制方法的原理，以下为实现本发明的具体步骤：首先通过ASR的SDK与ASR引擎建立socket连接，在用户说话的音频数据传入FreeSWITCH中时，通过FreeSWITCH的media bug功能获取到音频片段(一般是20ms)，然后将音频流通过socket发送给ASR引擎，通过ASR引擎将用户音频数据转化为文本，并调用SDK的回调函数，监听ASR引擎的识别结果，并且把识别结果回传给语音控制系统，语音控制系统再将识别结果发送给业务系统，业务系统根据话术图谱和用户的话术配置，返回机器人应答的内容(这里假设是使用TTS合成)，通过语音控制系统调用FreeSWITCH的TTS命令(和ASR一样都是二次开发的模块)调用TTS引擎，TTS引擎会返回合成的音频流，最后通过TTS模块将合成的音频流通过FreeSWITCH插入到返回的音频数据中，用户即得到了TTS合成的数据。

采用本发明提供的实施例，具有以下有益效果：

(1)通过使用回调函数监听ASR引擎的识别结果，并且把识别结果回传给语音控制系统，能够减少ASR和TTS对语音交互的延迟的影响，并且延迟做到不随语句长度的增加而增大；

(2)在识别过程中不需要借用系统的录音功能，能够减少进行ASR和TTS时对FreeSWITCH性能的影响，使系统能够支撑更大量的并发；

(3)在进行TTS的时候，在TTS引擎有部分数据返回后，立即写入FreeSWITCH发送给用户的音频数据流中，不需要等待用户完整的说完一句话才有反应，提高了语音控制的实时性，极大的提升用户体验。

作为本发明提供的优选实施例，请参见图3，图3是本发明提供的基于FreeSWITCH的智能语音控制系统的一个实施例的结构示意图，包括：语音获取模块、监听模块、应答模块、语音合成模块以及反馈模块；

所述语音获取模块，用于通过FreeSWITCH获取第一用户输入的音频数据，并将所述音频数据发送至ASR模块，以使所述ASR模块对所述音频数据进行语音识别；所述监听模块，用于监听所述ASR模块对所述音频数据的语音识别，得到语音识别结果；所述应答模块，用于将所述语音识别结果发送至业务系统，以使所述业务系统对所述语音识别结果进行应答同时生成应答结果；所述语音合成模块，用于将所述应答结果发送至TTS模块，以使所述TTS模块根据所述应答结果合成对应的应答音频数据，并将所述应答音频数据发送至所述FreeSWITCH；所述反馈模块，用于当所述FreeSWITCH在接收到所述应答音频数据后，将所述应答音频数据返回至所述第一用户。

在本实施例中，所述语音获取模块包括语音获取单元和语音识别单元；

所述语音获取单元，用于通过FreeSWITCH的media bug功能获取第一用户输入的音频数据，并通过ASR模块的SDK与ASR引擎建立socket连接；所述语音识别单元，用于将所述音频数据通过socket发送至所述ASR引擎，以供所述ASR引擎对所述音频数据进行识别并转化为文本。

优选的，所述ASR引擎对所述音频数据进行识别，具体为：对所述音频数据进行语音端点检测，在检测到第一用户的声音后，通过声学模型将所述音频数据转化为音节，在预设时间内未检测到所述第一用户的声音后，通过语言模型将所述音节转化为文本。

需要说明的是，所述监听模块包括回调监听单元；所述回调监听单元，用于调用SDK的回调函数监听所述ASR引擎对所述音频数据的识别结果，得到所述文本并将所述文本作为语音识别结果。

作为本发明的优选实施例，所述业务系统内设有应答引擎、话术图谱以及所有用户的话术配置；当所述业务系统接收到所述语音识别结果时，提取所述语音识别结果中的第一用户信息，在所述所有用户的话术配置中进行匹配，得到所述第一用户的第一话术配置；通过所述应答引擎根据所述话术图谱和所述第一话术配置，对所述语音识别结果进行应答，生成应答结果。

由上可见，本发明实施例提供的一种基于FreeSWITCH的智能语音控制系统，语音获取模块通过FreeSWITCH获取第一用户输入的音频数据，并将所述音频数据发送至ASR模块，以使所述ASR模块对所述音频数据进行语音识别，再通过监听模块监听所述ASR模块对所述音频数据的语音识别，得到语音识别结果，然后通过应答模块将所述语音识别结果发送至业务系统，以使所述业务系统对所述语音识别结果进行应答同时生成应答结果，再通过语音合成模块将所述应答结果发送至TTS模块，以使所述TTS模块根据所述应答结果合成对应的应答音频数据，并将所述应答音频数据发送至所述FreeSWITCH，并通过反馈模块当所述FreeSWITCH在接收到所述应答音频数据后，将所述应答音频数据返回至所述第一用户，能够降低ASR和TTS的响应延迟，提高了ASR的识别准确率，并且可以极大的提高用户体验。

需说明的是，以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的系统实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于FreeSWITCH的智能语音控制方法，其特征在于，包括以下步骤：

当所述FreeSWITCH在接收到所述应答音频数据后，将所述应答音频数据返回至所述第一用户；

所述通过FreeSWITCH获取用户输入的音频数据，并将所述音频数据发送至ASR模块，以使所述ASR模块对所述音频数据进行语音识别，具体为：

将所述音频数据通过socket发送至所述ASR引擎，以供所述ASR引擎对所述音频数据进行识别并转化为文本；

其中，所述ASR引擎对所述音频数据进行识别，具体为：

对所述音频数据进行语音端点检测，在检测到第一用户的声音后，通过声学模型将所述音频数据转化为音节，在预设时间内未检测到所述第一用户的声音后，通过语言模型将所述音节转化为文本；

所述监听所述ASR模块对所述音频数据的语音识别，得到语音识别结果，具体为：

2.如权利要求1所述的基于FreeSWITCH的智能语音控制方法，其特征在于，所述业务系统内设有应答引擎、话术图谱以及所有用户的话术配置；

3.一种基于FreeSWITCH的智能语音控制系统，其特征在于，包括：语音获取模块、监听模块、应答模块、语音合成模块以及反馈模块；

所述反馈模块，用于当所述FreeSWITCH在接收到所述应答音频数据后，将所述应答音频数据返回至所述第一用户；

所述语音获取模块包括语音获取单元和语音识别单元；

所述语音识别单元，用于将所述音频数据通过socket发送至所述ASR引擎，以供所述ASR引擎对所述音频数据进行识别并转化为文本；

其中，所述ASR引擎对所述音频数据进行识别，具体为：

所述监听模块包括回调监听单元；

4.如权利要求3所述的基于FreeSWITCH的智能语音控制系统，其特征在于，所述业务系统内设有应答引擎、话术图谱以及所有用户的话术配置；