CN110534084A - 一种基于FreeSWITCH的智能语音控制方法及系统 - Google Patents

一种基于FreeSWITCH的智能语音控制方法及系统 Download PDF

Info

Publication number
CN110534084A
CN110534084A CN201910723198.9A CN201910723198A CN110534084A CN 110534084 A CN110534084 A CN 110534084A CN 201910723198 A CN201910723198 A CN 201910723198A CN 110534084 A CN110534084 A CN 110534084A
Authority
CN
China
Prior art keywords
audio data
response
module
asr
freeswitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910723198.9A
Other languages
English (en)
Other versions
CN110534084B (zh
Inventor
陈开冉
黎展
王木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Tungee Technology Co ltd
Original Assignee
Guangzhou Tungee Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Tungee Technology Co ltd filed Critical Guangzhou Tungee Technology Co ltd
Priority to CN201910723198.9A priority Critical patent/CN110534084B/zh
Publication of CN110534084A publication Critical patent/CN110534084A/zh
Application granted granted Critical
Publication of CN110534084B publication Critical patent/CN110534084B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Abstract

本发明公开了基于FreeSWITCH的智能语音控制方法,通过FreeSWITCH获取第一用户输入的音频数据,并将音频数据发送至ASR模块,以使ASR模块对音频数据进行语音识别,并监听ASR模块对音频数据的语音识别,得到语音识别结果,然后将语音识别结果发送至业务系统,以使业务系统对语音识别结果进行应答同时生成应答结果,再将应答结果发送至TTS模块,以使TTS模块根据应答结果合成对应的应答音频数据,并将应答音频数据发送至FreeSWITCH;当FreeSWITCH在接收到应答音频数据后,将应答音频数据返回至第一用户,能够降低ASR和TTS的响应延迟,提高了ASR的识别准确率,并且可以极大的提高用户体验。

Description

一种基于FreeSWITCH的智能语音控制方法及系统
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于FreeSWITCH的智能语音控制方法及系统。
背景技术
现有的智能语音控制系统主要含有两个模块,一个是FreeSWITCH的插件,负责对语音流进行端点检测(即检测用户开始说一句话的时间点和结束一句话的时间点),并且在用户开始说话时调用FreeSWITCH的系统命令录音,直到用户说话这句话为止。之后再调用ASR(语音识别)识别录音,把文本发送给另外一个模块。在使用TTS(语音合成)的时候,则是先合成一个录音文件,再调用系统的播音命令播放该文件。另外一个模块在接收到文本之后,会回调给业务系统,并且提供播音、打断、挂机和转接等多种操作接口给业务系统调用。使用这两个模块,可以很容易的控制呼叫中的语音控制。
但现有的智能语音控制系统具有以下几个缺陷:
(1)、使用先录音、后识别的方式会造成很大的延迟,特别是用户的一句话很长的时候,延迟会更大;
(2)、在识别到用户说话后再开始录音,不可避免的会丢失掉一部分音频数据,影响最终的ASR识别准确率;
(3)、在通话过程中不断的开始、停止录音,会造成系统的延迟,也会带来很大的性能开销;
(4)、只能识别出完整的一句话文本后才能进行下一步操作,导致语音控制流程不够智能,用户体验不好;
(5)、使用TTS的时候先生成录音再播放也会带来很大的延迟,而且需合成的文本越长,延迟也越大。
发明内容
本发明实施例的目的是提供一种基于FreeSWITCH的智能语音控制方法,能够降低ASR和TTS的响应延迟,提高了ASR的识别准确率,并且可以极大的提高用户体验。
为实现上述目的,本发明实施例提供了一种基于FreeSWITCH的智能语音控制方法,包括以下步骤:
通过FreeSWITCH获取第一用户输入的音频数据,并将所述音频数据发送至ASR模块,以使所述ASR模块对所述音频数据进行语音识别;
监听所述ASR模块对所述音频数据的语音识别,得到语音识别结果;
将所述语音识别结果发送至业务系统,以使所述业务系统对所述语音识别结果进行应答同时生成应答结果;
将所述应答结果发送至TTS模块,以使所述TTS模块根据所述应答结果合成对应的应答音频数据,并将所述应答音频数据发送至所述FreeSWITCH;
当所述FreeSWITCH在接收到所述应答音频数据后,将所述应答音频数据返回至所述第一用户。
进一步的,所述通过FreeSWITCH获取用户输入的音频数据,并将所述音频数据发送至ASR模块,以使所述ASR模块对所述音频数据进行语音识别,具体为:
通过FreeSWITCH的media bug功能获取第一用户输入的音频数据,并通过ASR模块的SDK与ASR引擎建立socket连接;
将所述音频数据通过socket发送至所述ASR引擎,以供所述ASR引擎对所述语音数据进行识别并转化为文本。
进一步的,所述ASR引擎对所述语音数据进行识别,具体为:
对所述语音数据进行语音端点检测,在检测到第一用户的声音后,通过声学模型将所述音频数据转化为音节,在预设时间内未检测到所述第一用户的声音后,通过语言模型将所述音节转化为文本。
进一步的,所述监听所述ASR模块对所述音频数据的语音识别,得到语音识别结果,具体为:
调用SDK的回调函数监听所述ASR引擎对所述语音数据的识别结果,得到所述文本并将所述文本作为语音识别结果。
进一步的,所述业务系统内设有应答引擎、话术图谱以及所有用户的话术配置;
当所述业务系统接收到所述语音识别结果时,提取所述语音识别结果中的第一用户信息,在所述所有用户的话术配置中进行匹配,得到所述第一用户的第一话术配置;
通过所述应答引擎根据所述话术图谱和所述第一话术配置,对所述语音识别结果进行应答,生成应答结果。
优选的,本发明实施例还提供了一种,基于FreeSWITCH的智能语音控制系统,包括:语音获取模块、监听模块、应答模块、语音合成模块以及反馈模块;
所述语音获取模块,用于通过FreeSWITCH获取第一用户输入的音频数据,并将所述音频数据发送至ASR模块,以使所述ASR模块对所述音频数据进行语音识别;
所述监听模块,用于监听所述ASR模块对所述音频数据的语音识别,得到语音识别结果;
所述应答模块,用于将所述语音识别结果发送至业务系统,以使所述业务系统对所述语音识别结果进行应答同时生成应答结果;
所述语音合成模块,用于将所述应答结果发送至TTS模块,以使所述TTS模块根据所述应答结果合成对应的应答音频数据,并将所述应答音频数据发送至所述FreeSWITCH;
所述反馈模块,用于当所述FreeSWITCH在接收到所述应答音频数据后,将所述应答音频数据返回至所述第一用户。
进一步的,所述语音获取模块包括语音获取单元和语音识别单元;
所述语音获取单元,用于通过FreeSWITCH的media bug功能获取第一用户输入的音频数据,并通过ASR模块的SDK与ASR引擎建立socket连接;
所述语音识别单元,用于将所述音频数据通过socket发送至所述ASR引擎,以供所述ASR引擎对所述语音数据进行识别并转化为文本。
进一步的,所述ASR引擎对所述语音数据进行识别,具体为:
对所述语音数据进行语音端点检测,在检测到第一用户的声音后,通过声学模型将所述音频数据转化为音节,在预设时间内未检测到所述第一用户的声音后,通过语言模型将所述音节转化为文本。
进一步的,所述监听模块包括回调监听单元;
所述回调监听单元,用于调用SDK的回调函数监听所述ASR引擎对所述语音数据的识别结果,得到所述文本并将所述文本作为语音识别结果。
进一步的,所述业务系统内设有应答引擎、话术图谱以及所有用户的话术配置;
当所述业务系统接收到所述语音识别结果时,提取所述语音识别结果中的第一用户信息,在所述所有用户的话术配置中进行匹配,得到所述第一用户的第一话术配置;
通过所述应答引擎根据所述话术图谱和所述第一话术配置,对所述语音识别结果进行应答,生成应答结果。
与现有技术相比,具有如下有益效果:
本发明实施例提供的基于FreeSWITCH的智能语音控制方法,通过FreeSWITCH获取第一用户输入的音频数据,并将音频数据发送至ASR模块,以使ASR模块对音频数据进行语音识别,并监听ASR模块对音频数据的语音识别,得到语音识别结果,然后将语音识别结果发送至业务系统,以使业务系统对语音识别结果进行应答同时生成应答结果,再将应答结果发送至TTS模块,以使TTS模块根据应答结果合成对应的应答音频数据,并将应答音频数据发送至FreeSWITCH;当FreeSWITCH在接收到应答音频数据后,将应答音频数据返回至第一用户,能够降低ASR和TTS的响应延迟,提高了ASR的识别准确率,并且可以极大的提高用户体验。
附图说明
图1是本发明提供的基于FreeSWITCH的智能语音控制方法的一个实施例的流程示意图;
图2是本发明提供的基于FreeSWITCH的智能语音控制方法的一个实施例的工作原理流程示意图;
图3是本发明提供的基于FreeSWITCH的智能语音控制系统的一个实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,图1是本发明提供的基于FreeSWITCH的智能语音控制方法的一个实施例的流程示意图;本发明实施例提供一种基于FreeSWITCH的智能语音控制方法,包括步骤S1-S5;
S1,通过FreeSWITCH获取第一用户输入的音频数据,并将所述音频数据发送至ASR模块,以使所述ASR模块对所述音频数据进行语音识别。
在本实施例中,步骤S1具体为:通过FreeSWITCH的media bug功能获取第一用户输入的音频数据,并通过ASR模块的SDK与ASR引擎建立socket连接;将所述音频数据通过socket发送至所述ASR引擎,以供所述ASR引擎对所述语音数据进行识别并转化为文本。
其中,所述ASR引擎对所述语音数据进行识别,具体为:对所述语音数据进行语音端点检测,在检测到第一用户的声音后,通过声学模型将所述音频数据转化为音节,在预设时间内未检测到所述第一用户的声音后,通过语言模型将所述音节转化为文本。
需要说明的是,FreeSWITCH与ASR引擎建立一个socket连接,利用FreeSWITCH的media bug特性获取用户的音频数据后,将数据流持续不断的通过socket连接发送给ASR引擎中,ASR引擎对获取的音频数据流做VAD(语音端点检测),检测到有用户的声音后,会通过声学模型将音频数据转化为音节,最后在检测到用户一句话结束后通过语言模型将音节变成文本,在得到用户的文本识别结果后,通过socket连接把结果发送给FreeSWITCH。
S2,监听所述ASR模块对所述音频数据的语音识别,得到语音识别结果。
在本实施例中,步骤S2具体为:调用SDK的回调函数监听所述ASR引擎对所述语音数据的识别结果,得到所述文本并将所述文本作为语音识别结果。
需要说明的是,ASR引擎提供了一个SDK,SDK负责创建与ASR引擎的socket连接以及发送和接收消息。SDK提供了一些事件回调函数,例如用户开始说话的事件回调,识别用户说话文本结果的事件回调等。FreeSWITCH通过实现回调函数的具体逻辑来对回调事件做相应的处理。
S3,将所述语音识别结果发送至业务系统,以使所述业务系统对所述语音识别结果进行应答同时生成应答结果。
需要说明的是,所述业务系统内设有应答引擎、话术图谱以及所有用户的话术配置;当所述业务系统接收到所述语音识别结果时,提取所述语音识别结果中的第一用户信息,在所述所有用户的话术配置中进行匹配,得到所述第一用户的第一话术配置;通过所述应答引擎根据所述话术图谱和所述第一话术配置,对所述语音识别结果进行应答,生成应答结果。
在本实施例中,语音控制系统通过ESL(Event-Socket Library)接收FreeSWITCH发送的事件,以及向FreeSWTICH发送需执行的命令,例如播放一段音频或者挂断电话等。在语音控制系统接收到ASR的识别结果之后,会将识别结果发送给业务系统,业务系统根据对话图谱的逻辑以及客户配置的话术得出机器人需要做出的回应。例如:播放一段邀约或者结束对话的语音,利用TTS合成一段音频等。
S4,将所述应答结果发送至TTS模块,以使所述TTS模块根据所述应答结果合成对应的应答音频数据,并将所述应答音频数据发送至所述FreeSWITCH。
S5,当所述FreeSWITCH在接收到所述应答音频数据后,将所述应答音频数据返回至所述第一用户。
请参见图2,为了更好的说明本发明实施例提供的基于FreeSWITCH的智能语音控制方法的原理,以下为实现本发明的具体步骤:首先通过ASR的SDK与ASR引擎建立socket连接,在用户说话的音频数据传入FreeSWITCH中时,通过FreeSWITCH的media bug功能获取到音频片段(一般是20ms),然后将音频流通过socket发送给ASR引擎,通过ASR引擎将用户音频数据转化为文本,并调用SDK的回调函数,监听ASR引擎的识别结果,并且把识别结果回传给语音控制系统,语音控制系统再将识别结果发送给业务系统,业务系统根据话术图谱和用户的话术配置,返回机器人应答的内容(这里假设是使用TTS合成),通过语音控制系统调用FreeSWITCH的TTS命令(和ASR一样都是二次开发的模块)调用TTS引擎,TTS引擎会返回合成的音频流,最后通过TTS模块将合成的音频流通过FreeSWITCH插入到返回的语音数据中,用户即得到了TTS合成的数据。
本发明实施例提供的基于FreeSWITCH的智能语音控制方法,通过FreeSWITCH获取第一用户输入的音频数据,并将音频数据发送至ASR模块,以使ASR模块对音频数据进行语音识别,并监听ASR模块对音频数据的语音识别,得到语音识别结果,然后将语音识别结果发送至业务系统,以使业务系统对语音识别结果进行应答同时生成应答结果,再将应答结果发送至TTS模块,以使TTS模块根据应答结果合成对应的应答音频数据,并将应答音频数据发送至FreeSWITCH;当FreeSWITCH在接收到应答音频数据后,将应答音频数据返回至第一用户,能够降低ASR和TTS的响应延迟,提高了ASR的识别准确率,并且可以极大的提高用户体验。
采用本发明提供的实施例,具有以下有益效果:
(1)通过使用回调函数监听ASR引擎的识别结果,并且把识别结果回传给语音控制系统,能够减少ASR和TTS对语音交互的延迟的影响,并且延迟做到不随语句长度的增加而增大;
(2)在识别过程中不需要借用系统的录音功能,能够减少进行ASR和TTS时对FreeSWITCH性能的影响,使系统能够支撑更大量的并发;
(3)在进行TTS的时候,在TTS引擎有部分数据返回后,立即写入FreeSWITCH发送给用户的音频数据流中,不需要等待用户完整的说完一句话才有反应,提高了语音控制的实时性,极大的提升用户体验。
作为本发明提供的优选实施例,请参见图3,图3是本发明提供的基于FreeSWITCH的智能语音控制系统的一个实施例的结构示意图,包括:语音获取模块、监听模块、应答模块、语音合成模块以及反馈模块;
所述语音获取模块,用于通过FreeSWITCH获取第一用户输入的音频数据,并将所述音频数据发送至ASR模块,以使所述ASR模块对所述音频数据进行语音识别;所述监听模块,用于监听所述ASR模块对所述音频数据的语音识别,得到语音识别结果;所述应答模块,用于将所述语音识别结果发送至业务系统,以使所述业务系统对所述语音识别结果进行应答同时生成应答结果;所述语音合成模块,用于将所述应答结果发送至TTS模块,以使所述TTS模块根据所述应答结果合成对应的应答音频数据,并将所述应答音频数据发送至所述FreeSWITCH;所述反馈模块,用于当所述FreeSWITCH在接收到所述应答音频数据后,将所述应答音频数据返回至所述第一用户。
在本实施例中,所述语音获取模块包括语音获取单元和语音识别单元;
所述语音获取单元,用于通过FreeSWITCH的media bug功能获取第一用户输入的音频数据,并通过ASR模块的SDK与ASR引擎建立socket连接;所述语音识别单元,用于将所述音频数据通过socket发送至所述ASR引擎,以供所述ASR引擎对所述语音数据进行识别并转化为文本。
优选的,所述ASR引擎对所述语音数据进行识别,具体为:对所述语音数据进行语音端点检测,在检测到第一用户的声音后,通过声学模型将所述音频数据转化为音节,在预设时间内未检测到所述第一用户的声音后,通过语言模型将所述音节转化为文本。
需要说明的是,所述监听模块包括回调监听单元;所述回调监听单元,用于调用SDK的回调函数监听所述ASR引擎对所述语音数据的识别结果,得到所述文本并将所述文本作为语音识别结果。
作为本发明的优选实施例,所述业务系统内设有应答引擎、话术图谱以及所有用户的话术配置;当所述业务系统接收到所述语音识别结果时,提取所述语音识别结果中的第一用户信息,在所述所有用户的话术配置中进行匹配,得到所述第一用户的第一话术配置;通过所述应答引擎根据所述话术图谱和所述第一话术配置,对所述语音识别结果进行应答,生成应答结果。
由上可见,本发明实施例提供的一种基于FreeSWITCH的智能语音控制系统,语音获取模块通过FreeSWITCH获取第一用户输入的音频数据,并将所述音频数据发送至ASR模块,以使所述ASR模块对所述音频数据进行语音识别,再通过监听模块监听所述ASR模块对所述音频数据的语音识别,得到语音识别结果,然后通过应答模块将所述语音识别结果发送至业务系统,以使所述业务系统对所述语音识别结果进行应答同时生成应答结果,再通过语音合成模块将所述应答结果发送至TTS模块,以使所述TTS模块根据所述应答结果合成对应的应答音频数据,并将所述应答音频数据发送至所述FreeSWITCH,并通过反馈模块当所述FreeSWITCH在接收到所述应答音频数据后,将所述应答音频数据返回至所述第一用户,能够降低ASR和TTS的响应延迟,提高了ASR的识别准确率,并且可以极大的提高用户体验。
需说明的是,以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的系统实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种基于FreeSWITCH的智能语音控制方法,其特征在于,包括以下步骤:
通过FreeSWITCH获取第一用户输入的音频数据,并将所述音频数据发送至ASR模块,以使所述ASR模块对所述音频数据进行语音识别;
监听所述ASR模块对所述音频数据的语音识别,得到语音识别结果;
将所述语音识别结果发送至业务系统,以使所述业务系统对所述语音识别结果进行应答同时生成应答结果;
将所述应答结果发送至TTS模块,以使所述TTS模块根据所述应答结果合成对应的应答音频数据,并将所述应答音频数据发送至所述FreeSWITCH;
当所述FreeSWITCH在接收到所述应答音频数据后,将所述应答音频数据返回至所述第一用户。
2.如权利要求1所述的基于FreeSWITCH的智能语音控制方法,其特征在于,所述通过FreeSWITCH获取用户输入的音频数据,并将所述音频数据发送至ASR模块,以使所述ASR模块对所述音频数据进行语音识别,具体为:
通过FreeSWITCH的media bug功能获取第一用户输入的音频数据,并通过ASR模块的SDK与ASR引擎建立socket连接;
将所述音频数据通过socket发送至所述ASR引擎,以供所述ASR引擎对所述语音数据进行识别并转化为文本。
3.如权利要求2所述的基于FreeSWITCH的智能语音控制方法,其特征在于,所述ASR引擎对所述语音数据进行识别,具体为:
对所述语音数据进行语音端点检测,在检测到第一用户的声音后,通过声学模型将所述音频数据转化为音节,在预设时间内未检测到所述第一用户的声音后,通过语言模型将所述音节转化为文本。
4.如权利要求3所述的基于FreeSWITCH的智能语音控制方法,其特征在于,所述监听所述ASR模块对所述音频数据的语音识别,得到语音识别结果,具体为:
调用SDK的回调函数监听所述ASR引擎对所述语音数据的识别结果,得到所述文本并将所述文本作为语音识别结果。
5.如权利要求4所述的基于FreeSWITCH的智能语音控制方法,其特征在于,所述业务系统内设有应答引擎、话术图谱以及所有用户的话术配置;
当所述业务系统接收到所述语音识别结果时,提取所述语音识别结果中的第一用户信息,在所述所有用户的话术配置中进行匹配,得到所述第一用户的第一话术配置;
通过所述应答引擎根据所述话术图谱和所述第一话术配置,对所述语音识别结果进行应答,生成应答结果。
6.一种基于FreeSWITCH的智能语音控制系统,其特征在于,包括:语音获取模块、监听模块、应答模块、语音合成模块以及反馈模块;
所述语音获取模块,用于通过FreeSWITCH获取第一用户输入的音频数据,并将所述音频数据发送至ASR模块,以使所述ASR模块对所述音频数据进行语音识别;
所述监听模块,用于监听所述ASR模块对所述音频数据的语音识别,得到语音识别结果;
所述应答模块,用于将所述语音识别结果发送至业务系统,以使所述业务系统对所述语音识别结果进行应答同时生成应答结果;
所述语音合成模块,用于将所述应答结果发送至TTS模块,以使所述TTS模块根据所述应答结果合成对应的应答音频数据,并将所述应答音频数据发送至所述FreeSWITCH;
所述反馈模块,用于当所述FreeSWITCH在接收到所述应答音频数据后,将所述应答音频数据返回至所述第一用户。
7.如权利要求6所述的基于FreeSWITCH的智能语音控制系统,其特征在于,所述语音获取模块包括语音获取单元和语音识别单元;
所述语音获取单元,用于通过FreeSWITCH的media bug功能获取第一用户输入的音频数据,并通过ASR模块的SDK与ASR引擎建立socket连接;
所述语音识别单元,用于将所述音频数据通过socket发送至所述ASR引擎,以供所述ASR引擎对所述语音数据进行识别并转化为文本。
8.如权利要求7所述的基于FreeSWITCH的智能语音控制系统,其特征在于,所述ASR引擎对所述语音数据进行识别,具体为:
对所述语音数据进行语音端点检测,在检测到第一用户的声音后,通过声学模型将所述音频数据转化为音节,在预设时间内未检测到所述第一用户的声音后,通过语言模型将所述音节转化为文本。
9.如权利要求8所述的基于FreeSWITCH的智能语音控制系统,其特征在于,所述监听模块包括回调监听单元;
所述回调监听单元,用于调用SDK的回调函数监听所述ASR引擎对所述语音数据的识别结果,得到所述文本并将所述文本作为语音识别结果。
10.如权利要求9所述的基于FreeSWITCH的智能语音控制系统,其特征在于,所述业务系统内设有应答引擎、话术图谱以及所有用户的话术配置;
当所述业务系统接收到所述语音识别结果时,提取所述语音识别结果中的第一用户信息,在所述所有用户的话术配置中进行匹配,得到所述第一用户的第一话术配置;
通过所述应答引擎根据所述话术图谱和所述第一话术配置,对所述语音识别结果进行应答,生成应答结果。
CN201910723198.9A 2019-08-06 2019-08-06 一种基于FreeSWITCH的智能语音控制方法及系统 Active CN110534084B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910723198.9A CN110534084B (zh) 2019-08-06 2019-08-06 一种基于FreeSWITCH的智能语音控制方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910723198.9A CN110534084B (zh) 2019-08-06 2019-08-06 一种基于FreeSWITCH的智能语音控制方法及系统

Publications (2)

Publication Number Publication Date
CN110534084A true CN110534084A (zh) 2019-12-03
CN110534084B CN110534084B (zh) 2022-05-13

Family

ID=68661485

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910723198.9A Active CN110534084B (zh) 2019-08-06 2019-08-06 一种基于FreeSWITCH的智能语音控制方法及系统

Country Status (1)

Country Link
CN (1) CN110534084B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022206719A1 (zh) * 2021-03-31 2022-10-06 北京智齿博创科技有限公司 基于FreeSWITCH与ASR的外呼失败结果检测方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012040418A1 (en) * 2010-09-22 2012-03-29 Vivox, Inc. Techniques for extending and associating chats with execution instances of programs
CN103873706A (zh) * 2012-12-18 2014-06-18 北京裕丰大通科技有限公司 动态智能语音识别ivr服务系统
CN105162836A (zh) * 2015-07-29 2015-12-16 百度在线网络技术(北京)有限公司 执行语音通信的方法、服务器和智能终端设备
US20170259120A1 (en) * 2016-03-08 2017-09-14 Your Trainer Inc. Programming environment for adaptive workout video composition
WO2018068096A1 (en) * 2016-10-13 2018-04-19 Optus Administration Pty Ltd Method and system for offering digital services within a phone call
US20180144744A1 (en) * 2016-11-22 2018-05-24 Salesforce.Com, Inc. Controlling a user interface console using speech recognition
CN108810295A (zh) * 2018-03-28 2018-11-13 平安科技(深圳)有限公司 服务提供方法、电子设备及存储介质
CN109036375A (zh) * 2018-07-25 2018-12-18 腾讯科技(深圳)有限公司 语音合成方法、模型训练方法、装置和计算机设备
CN109862197A (zh) * 2019-01-29 2019-06-07 佛山市贝密信息科技有限公司 一种新型呼叫中心及其外呼方法
CN109995953A (zh) * 2019-03-20 2019-07-09 深圳风豹互联网科技有限公司 一种智能电销的系统和方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012040418A1 (en) * 2010-09-22 2012-03-29 Vivox, Inc. Techniques for extending and associating chats with execution instances of programs
CN103873706A (zh) * 2012-12-18 2014-06-18 北京裕丰大通科技有限公司 动态智能语音识别ivr服务系统
CN105162836A (zh) * 2015-07-29 2015-12-16 百度在线网络技术(北京)有限公司 执行语音通信的方法、服务器和智能终端设备
US20170259120A1 (en) * 2016-03-08 2017-09-14 Your Trainer Inc. Programming environment for adaptive workout video composition
WO2018068096A1 (en) * 2016-10-13 2018-04-19 Optus Administration Pty Ltd Method and system for offering digital services within a phone call
US20180144744A1 (en) * 2016-11-22 2018-05-24 Salesforce.Com, Inc. Controlling a user interface console using speech recognition
CN108810295A (zh) * 2018-03-28 2018-11-13 平安科技(深圳)有限公司 服务提供方法、电子设备及存储介质
CN109036375A (zh) * 2018-07-25 2018-12-18 腾讯科技(深圳)有限公司 语音合成方法、模型训练方法、装置和计算机设备
CN109862197A (zh) * 2019-01-29 2019-06-07 佛山市贝密信息科技有限公司 一种新型呼叫中心及其外呼方法
CN109995953A (zh) * 2019-03-20 2019-07-09 深圳风豹互联网科技有限公司 一种智能电销的系统和方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PHIL BARTIE ET AL: "A dialogue based mobile virtual assistant for tourists: The SpaceBook Project", 《COMPUTERS, ENVIRONMENT AND URBAN SYSTEMS》 *
张宏祥: "基于FreeSWITCH的呼叫中心设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
王探云: "呼叫中心多媒体工作台与实时统计系统设计与实现", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022206719A1 (zh) * 2021-03-31 2022-10-06 北京智齿博创科技有限公司 基于FreeSWITCH与ASR的外呼失败结果检测方法

Also Published As

Publication number Publication date
CN110534084B (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
JP4247929B2 (ja) 電話における自動音声認識のための方法
CN109977218B (zh) 一种应用于对话场景的自动应答系统和方法
US8515025B1 (en) Conference call voice-to-name matching
US7469207B1 (en) Method and system for providing automated audible backchannel responses
US7877261B1 (en) Call flow object model in a speech recognition system
US6671668B2 (en) Speech recognition system including manner discrimination
US11710488B2 (en) Transcription of communications using multiple speech recognition systems
US20030215066A1 (en) Method and apparatus for agent optimization using speech synthesis and recognition
CN105210355B (zh) 用于在电话呼叫的接收者判断不适合说话时应答电话呼叫的设备和相关方法
EP1976255A2 (en) Call center with distributed speech recognition
WO2010113438A1 (ja) 音声認識処理システム、および音声認識処理方法
CN111294471B (zh) 一种智能电话应答方法和系统
US8229750B2 (en) Barge-in capabilities of a voice browser
US11721344B2 (en) Automated audio-to-text transcription in multi-device teleconferences
CN111402881B (zh) 智能对话机器人系统及其实现智能对话的方法
CN113194203A (zh) 一种用于听障人士的沟通系统、接听拨打方法及通讯系统
US20020087323A1 (en) Voice service system and method
CN109040485A (zh) 一种基于自然语言处理的高速服务热线智能全景语音导航系统
CN111629110A (zh) 一种语音交互方法和语音交互系统
US6397182B1 (en) Method and system for generating a speech recognition dictionary based on greeting recordings in a voice messaging system
CN110534084A (zh) 一种基于FreeSWITCH的智能语音控制方法及系统
CN111835923B (zh) 一种基于人工智能的移动式语音交互对话系统
CN111696576A (zh) 一种智能语音机器人话术测试系统
US20060077967A1 (en) Method to manage media resources providing services to be used by an application requesting a particular set of services
JP2001142487A (ja) 音声データ入力システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant