CN110534084B - 一种基于FreeSWITCH的智能语音控制方法及系统 - Google Patents
一种基于FreeSWITCH的智能语音控制方法及系统 Download PDFInfo
- Publication number
- CN110534084B CN110534084B CN201910723198.9A CN201910723198A CN110534084B CN 110534084 B CN110534084 B CN 110534084B CN 201910723198 A CN201910723198 A CN 201910723198A CN 110534084 B CN110534084 B CN 110534084B
- Authority
- CN
- China
- Prior art keywords
- audio data
- module
- response
- voice
- asr
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 230000004044 response Effects 0.000 claims abstract description 94
- 238000012544 monitoring process Methods 0.000 claims abstract description 26
- 230000006870 function Effects 0.000 claims description 18
- 230000015572 biosynthetic process Effects 0.000 claims description 9
- 238000003786 synthesis reaction Methods 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 8
- 241001481828 Glyptocephalus cynoglossus Species 0.000 description 4
- 230000006854 communication Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了基于FreeSWITCH的智能语音控制方法,通过FreeSWITCH获取第一用户输入的音频数据,并将音频数据发送至ASR模块,以使ASR模块对音频数据进行语音识别,并监听ASR模块对音频数据的语音识别,得到语音识别结果,然后将语音识别结果发送至业务系统,以使业务系统对语音识别结果进行应答同时生成应答结果,再将应答结果发送至TTS模块,以使TTS模块根据应答结果合成对应的应答音频数据,并将应答音频数据发送至FreeSWITCH;当FreeSWITCH在接收到应答音频数据后,将应答音频数据返回至第一用户,能够降低ASR和TTS的响应延迟,提高了ASR的识别准确率,并且可以极大的提高用户体验。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于FreeSWITCH的智能语音控制方法及系统。
背景技术
现有的智能语音控制系统主要含有两个模块,一个是FreeSWITCH的插件,负责对语音流进行端点检测(即检测用户开始说一句话的时间点和结束一句话的时间点),并且在用户开始说话时调用FreeSWITCH的系统命令录音,直到用户说话这句话为止。之后再调用ASR(语音识别)识别录音,把文本发送给另外一个模块。在使用TTS(语音合成)的时候,则是先合成一个录音文件,再调用系统的播音命令播放该文件。另外一个模块在接收到文本之后,会回调给业务系统,并且提供播音、打断、挂机和转接等多种操作接口给业务系统调用。使用这两个模块,可以很容易的控制呼叫中的语音控制。
但现有的智能语音控制系统具有以下几个缺陷:
(1)、使用先录音、后识别的方式会造成很大的延迟,特别是用户的一句话很长的时候,延迟会更大;
(2)、在识别到用户说话后再开始录音,不可避免的会丢失掉一部分音频数据,影响最终的ASR识别准确率;
(3)、在通话过程中不断的开始、停止录音,会造成系统的延迟,也会带来很大的性能开销;
(4)、只能识别出完整的一句话文本后才能进行下一步操作,导致语音控制流程不够智能,用户体验不好;
(5)、使用TTS的时候先生成录音再播放也会带来很大的延迟,而且需合成的文本越长,延迟也越大。
发明内容
本发明实施例的目的是提供一种基于FreeSWITCH的智能语音控制方法,能够降低ASR和TTS的响应延迟,提高了ASR的识别准确率,并且可以极大的提高用户体验。
为实现上述目的,本发明实施例提供了一种基于FreeSWITCH的智能语音控制方法,包括以下步骤:
通过FreeSWITCH获取第一用户输入的音频数据,并将所述音频数据发送至ASR模块,以使所述ASR模块对所述音频数据进行语音识别;
监听所述ASR模块对所述音频数据的语音识别,得到语音识别结果;
将所述语音识别结果发送至业务系统,以使所述业务系统对所述语音识别结果进行应答同时生成应答结果;
将所述应答结果发送至TTS模块,以使所述TTS模块根据所述应答结果合成对应的应答音频数据,并将所述应答音频数据发送至所述FreeSWITCH;
当所述FreeSWITCH在接收到所述应答音频数据后,将所述应答音频数据返回至所述第一用户。
进一步的,所述通过FreeSWITCH获取用户输入的音频数据,并将所述音频数据发送至ASR模块,以使所述ASR模块对所述音频数据进行语音识别,具体为:
通过FreeSWITCH的media bug功能获取第一用户输入的音频数据,并通过ASR模块的SDK与ASR引擎建立socket连接;
将所述音频数据通过socket发送至所述ASR引擎,以供所述ASR引擎对所述音频数据进行识别并转化为文本。
进一步的,所述ASR引擎对所述音频数据进行识别,具体为:
对所述音频数据进行语音端点检测,在检测到第一用户的声音后,通过声学模型将所述音频数据转化为音节,在预设时间内未检测到所述第一用户的声音后,通过语言模型将所述音节转化为文本。
进一步的,所述监听所述ASR模块对所述音频数据的语音识别,得到语音识别结果,具体为:
调用SDK的回调函数监听所述ASR引擎对所述音频数据的识别结果,得到所述文本并将所述文本作为语音识别结果。
进一步的,所述业务系统内设有应答引擎、话术图谱以及所有用户的话术配置;
当所述业务系统接收到所述语音识别结果时,提取所述语音识别结果中的第一用户信息,在所述所有用户的话术配置中进行匹配,得到所述第一用户的第一话术配置;
通过所述应答引擎根据所述话术图谱和所述第一话术配置,对所述语音识别结果进行应答,生成应答结果。
优选的,本发明实施例还提供了一种,基于FreeSWITCH的智能语音控制系统,包括:语音获取模块、监听模块、应答模块、语音合成模块以及反馈模块;
所述语音获取模块,用于通过FreeSWITCH获取第一用户输入的音频数据,并将所述音频数据发送至ASR模块,以使所述ASR模块对所述音频数据进行语音识别;
所述监听模块,用于监听所述ASR模块对所述音频数据的语音识别,得到语音识别结果;
所述应答模块,用于将所述语音识别结果发送至业务系统,以使所述业务系统对所述语音识别结果进行应答同时生成应答结果;
所述语音合成模块,用于将所述应答结果发送至TTS模块,以使所述TTS模块根据所述应答结果合成对应的应答音频数据,并将所述应答音频数据发送至所述FreeSWITCH;
所述反馈模块,用于当所述FreeSWITCH在接收到所述应答音频数据后,将所述应答音频数据返回至所述第一用户。
进一步的,所述语音获取模块包括语音获取单元和语音识别单元;
所述语音获取单元,用于通过FreeSWITCH的media bug功能获取第一用户输入的音频数据,并通过ASR模块的SDK与ASR引擎建立socket连接;
所述语音识别单元,用于将所述音频数据通过socket发送至所述ASR引擎,以供所述ASR引擎对所述音频数据进行识别并转化为文本。
进一步的,所述ASR引擎对所述音频数据进行识别,具体为:
对所述音频数据进行语音端点检测,在检测到第一用户的声音后,通过声学模型将所述音频数据转化为音节,在预设时间内未检测到所述第一用户的声音后,通过语言模型将所述音节转化为文本。
进一步的,所述监听模块包括回调监听单元;
所述回调监听单元,用于调用SDK的回调函数监听所述ASR引擎对所述音频数据的识别结果,得到所述文本并将所述文本作为语音识别结果。
进一步的,所述业务系统内设有应答引擎、话术图谱以及所有用户的话术配置;
当所述业务系统接收到所述语音识别结果时,提取所述语音识别结果中的第一用户信息,在所述所有用户的话术配置中进行匹配,得到所述第一用户的第一话术配置;
通过所述应答引擎根据所述话术图谱和所述第一话术配置,对所述语音识别结果进行应答,生成应答结果。
与现有技术相比,具有如下有益效果:
本发明实施例提供的基于FreeSWITCH的智能语音控制方法,通过FreeSWITCH获取第一用户输入的音频数据,并将音频数据发送至ASR模块,以使ASR模块对音频数据进行语音识别,并监听ASR模块对音频数据的语音识别,得到语音识别结果,然后将语音识别结果发送至业务系统,以使业务系统对语音识别结果进行应答同时生成应答结果,再将应答结果发送至TTS模块,以使TTS模块根据应答结果合成对应的应答音频数据,并将应答音频数据发送至FreeSWITCH;当FreeSWITCH在接收到应答音频数据后,将应答音频数据返回至第一用户,能够降低ASR和TTS的响应延迟,提高了ASR的识别准确率,并且可以极大的提高用户体验。
附图说明
图1是本发明提供的基于FreeSWITCH的智能语音控制方法的一个实施例的流程示意图;
图2是本发明提供的基于FreeSWITCH的智能语音控制方法的一个实施例的工作原理流程示意图;
图3是本发明提供的基于FreeSWITCH的智能语音控制系统的一个实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,图1是本发明提供的基于FreeSWITCH的智能语音控制方法的一个实施例的流程示意图;本发明实施例提供一种基于FreeSWITCH的智能语音控制方法,包括步骤S1-S5;
S1,通过FreeSWITCH获取第一用户输入的音频数据,并将所述音频数据发送至ASR模块,以使所述ASR模块对所述音频数据进行语音识别。
在本实施例中,步骤S1具体为:通过FreeSWITCH的media bug功能获取第一用户输入的音频数据,并通过ASR模块的SDK与ASR引擎建立socket连接;将所述音频数据通过socket发送至所述ASR引擎,以供所述ASR引擎对所述音频数据进行识别并转化为文本。
其中,所述ASR引擎对所述音频数据进行识别,具体为:对所述音频数据进行语音端点检测,在检测到第一用户的声音后,通过声学模型将所述音频数据转化为音节,在预设时间内未检测到所述第一用户的声音后,通过语言模型将所述音节转化为文本。
需要说明的是,FreeSWITCH与ASR引擎建立一个socket连接,利用FreeSWITCH的media bug特性获取用户的音频数据后,将数据流持续不断的通过socket连接发送给ASR引擎中,ASR引擎对获取的音频数据流做VAD(语音端点检测),检测到有用户的声音后,会通过声学模型将音频数据转化为音节,最后在检测到用户一句话结束后通过语言模型将音节变成文本,在得到用户的文本识别结果后,通过socket连接把结果发送给FreeSWITCH。
S2,监听所述ASR模块对所述音频数据的语音识别,得到语音识别结果。
在本实施例中,步骤S2具体为:调用SDK的回调函数监听所述ASR引擎对所述音频数据的识别结果,得到所述文本并将所述文本作为语音识别结果。
需要说明的是,ASR引擎提供了一个SDK,SDK负责创建与ASR引擎的socket连接以及发送和接收消息。SDK提供了一些事件回调函数,例如用户开始说话的事件回调,识别用户说话文本结果的事件回调等。FreeSWITCH通过实现回调函数的具体逻辑来对回调事件做相应的处理。
S3,将所述语音识别结果发送至业务系统,以使所述业务系统对所述语音识别结果进行应答同时生成应答结果。
需要说明的是,所述业务系统内设有应答引擎、话术图谱以及所有用户的话术配置;当所述业务系统接收到所述语音识别结果时,提取所述语音识别结果中的第一用户信息,在所述所有用户的话术配置中进行匹配,得到所述第一用户的第一话术配置;通过所述应答引擎根据所述话术图谱和所述第一话术配置,对所述语音识别结果进行应答,生成应答结果。
在本实施例中,语音控制系统通过ESL(Event-Socket Library)接收FreeSWITCH发送的事件,以及向FreeSWTICH发送需执行的命令,例如播放一段音频或者挂断电话等。在语音控制系统接收到ASR的识别结果之后,会将识别结果发送给业务系统,业务系统根据对话图谱的逻辑以及客户配置的话术得出机器人需要做出的回应。例如:播放一段邀约或者结束对话的语音,利用TTS合成一段音频等。
S4,将所述应答结果发送至TTS模块,以使所述TTS模块根据所述应答结果合成对应的应答音频数据,并将所述应答音频数据发送至所述FreeSWITCH。
S5,当所述FreeSWITCH在接收到所述应答音频数据后,将所述应答音频数据返回至所述第一用户。
请参见图2,为了更好的说明本发明实施例提供的基于FreeSWITCH的智能语音控制方法的原理,以下为实现本发明的具体步骤:首先通过ASR的SDK与ASR引擎建立socket连接,在用户说话的音频数据传入FreeSWITCH中时,通过FreeSWITCH的media bug功能获取到音频片段(一般是20ms),然后将音频流通过socket发送给ASR引擎,通过ASR引擎将用户音频数据转化为文本,并调用SDK的回调函数,监听ASR引擎的识别结果,并且把识别结果回传给语音控制系统,语音控制系统再将识别结果发送给业务系统,业务系统根据话术图谱和用户的话术配置,返回机器人应答的内容(这里假设是使用TTS合成),通过语音控制系统调用FreeSWITCH的TTS命令(和ASR一样都是二次开发的模块)调用TTS引擎,TTS引擎会返回合成的音频流,最后通过TTS模块将合成的音频流通过FreeSWITCH插入到返回的音频数据中,用户即得到了TTS合成的数据。
本发明实施例提供的基于FreeSWITCH的智能语音控制方法,通过FreeSWITCH获取第一用户输入的音频数据,并将音频数据发送至ASR模块,以使ASR模块对音频数据进行语音识别,并监听ASR模块对音频数据的语音识别,得到语音识别结果,然后将语音识别结果发送至业务系统,以使业务系统对语音识别结果进行应答同时生成应答结果,再将应答结果发送至TTS模块,以使TTS模块根据应答结果合成对应的应答音频数据,并将应答音频数据发送至FreeSWITCH;当FreeSWITCH在接收到应答音频数据后,将应答音频数据返回至第一用户,能够降低ASR和TTS的响应延迟,提高了ASR的识别准确率,并且可以极大的提高用户体验。
采用本发明提供的实施例,具有以下有益效果:
(1)通过使用回调函数监听ASR引擎的识别结果,并且把识别结果回传给语音控制系统,能够减少ASR和TTS对语音交互的延迟的影响,并且延迟做到不随语句长度的增加而增大;
(2)在识别过程中不需要借用系统的录音功能,能够减少进行ASR和TTS时对FreeSWITCH性能的影响,使系统能够支撑更大量的并发;
(3)在进行TTS的时候,在TTS引擎有部分数据返回后,立即写入FreeSWITCH发送给用户的音频数据流中,不需要等待用户完整的说完一句话才有反应,提高了语音控制的实时性,极大的提升用户体验。
作为本发明提供的优选实施例,请参见图3,图3是本发明提供的基于FreeSWITCH的智能语音控制系统的一个实施例的结构示意图,包括:语音获取模块、监听模块、应答模块、语音合成模块以及反馈模块;
所述语音获取模块,用于通过FreeSWITCH获取第一用户输入的音频数据,并将所述音频数据发送至ASR模块,以使所述ASR模块对所述音频数据进行语音识别;所述监听模块,用于监听所述ASR模块对所述音频数据的语音识别,得到语音识别结果;所述应答模块,用于将所述语音识别结果发送至业务系统,以使所述业务系统对所述语音识别结果进行应答同时生成应答结果;所述语音合成模块,用于将所述应答结果发送至TTS模块,以使所述TTS模块根据所述应答结果合成对应的应答音频数据,并将所述应答音频数据发送至所述FreeSWITCH;所述反馈模块,用于当所述FreeSWITCH在接收到所述应答音频数据后,将所述应答音频数据返回至所述第一用户。
在本实施例中,所述语音获取模块包括语音获取单元和语音识别单元;
所述语音获取单元,用于通过FreeSWITCH的media bug功能获取第一用户输入的音频数据,并通过ASR模块的SDK与ASR引擎建立socket连接;所述语音识别单元,用于将所述音频数据通过socket发送至所述ASR引擎,以供所述ASR引擎对所述音频数据进行识别并转化为文本。
优选的,所述ASR引擎对所述音频数据进行识别,具体为:对所述音频数据进行语音端点检测,在检测到第一用户的声音后,通过声学模型将所述音频数据转化为音节,在预设时间内未检测到所述第一用户的声音后,通过语言模型将所述音节转化为文本。
需要说明的是,所述监听模块包括回调监听单元;所述回调监听单元,用于调用SDK的回调函数监听所述ASR引擎对所述音频数据的识别结果,得到所述文本并将所述文本作为语音识别结果。
作为本发明的优选实施例,所述业务系统内设有应答引擎、话术图谱以及所有用户的话术配置;当所述业务系统接收到所述语音识别结果时,提取所述语音识别结果中的第一用户信息,在所述所有用户的话术配置中进行匹配,得到所述第一用户的第一话术配置;通过所述应答引擎根据所述话术图谱和所述第一话术配置,对所述语音识别结果进行应答,生成应答结果。
由上可见,本发明实施例提供的一种基于FreeSWITCH的智能语音控制系统,语音获取模块通过FreeSWITCH获取第一用户输入的音频数据,并将所述音频数据发送至ASR模块,以使所述ASR模块对所述音频数据进行语音识别,再通过监听模块监听所述ASR模块对所述音频数据的语音识别,得到语音识别结果,然后通过应答模块将所述语音识别结果发送至业务系统,以使所述业务系统对所述语音识别结果进行应答同时生成应答结果,再通过语音合成模块将所述应答结果发送至TTS模块,以使所述TTS模块根据所述应答结果合成对应的应答音频数据,并将所述应答音频数据发送至所述FreeSWITCH,并通过反馈模块当所述FreeSWITCH在接收到所述应答音频数据后,将所述应答音频数据返回至所述第一用户,能够降低ASR和TTS的响应延迟,提高了ASR的识别准确率,并且可以极大的提高用户体验。
需说明的是,以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的系统实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (4)
1.一种基于FreeSWITCH的智能语音控制方法,其特征在于,包括以下步骤:
通过FreeSWITCH获取第一用户输入的音频数据,并将所述音频数据发送至ASR模块,以使所述ASR模块对所述音频数据进行语音识别;
监听所述ASR模块对所述音频数据的语音识别,得到语音识别结果;
将所述语音识别结果发送至业务系统,以使所述业务系统对所述语音识别结果进行应答同时生成应答结果;
将所述应答结果发送至TTS模块,以使所述TTS模块根据所述应答结果合成对应的应答音频数据,并将所述应答音频数据发送至所述FreeSWITCH;
当所述FreeSWITCH在接收到所述应答音频数据后,将所述应答音频数据返回至所述第一用户;
所述通过FreeSWITCH获取用户输入的音频数据,并将所述音频数据发送至ASR模块,以使所述ASR模块对所述音频数据进行语音识别,具体为:
通过FreeSWITCH的media bug功能获取第一用户输入的音频数据,并通过ASR模块的SDK与ASR引擎建立socket连接;
将所述音频数据通过socket发送至所述ASR引擎,以供所述ASR引擎对所述音频数据进行识别并转化为文本;
其中,所述ASR引擎对所述音频数据进行识别,具体为:
对所述音频数据进行语音端点检测,在检测到第一用户的声音后,通过声学模型将所述音频数据转化为音节,在预设时间内未检测到所述第一用户的声音后,通过语言模型将所述音节转化为文本;
所述监听所述ASR模块对所述音频数据的语音识别,得到语音识别结果,具体为:
调用SDK的回调函数监听所述ASR引擎对所述音频数据的识别结果,得到所述文本并将所述文本作为语音识别结果。
2.如权利要求1所述的基于FreeSWITCH的智能语音控制方法,其特征在于,所述业务系统内设有应答引擎、话术图谱以及所有用户的话术配置;
当所述业务系统接收到所述语音识别结果时,提取所述语音识别结果中的第一用户信息,在所述所有用户的话术配置中进行匹配,得到所述第一用户的第一话术配置;
通过所述应答引擎根据所述话术图谱和所述第一话术配置,对所述语音识别结果进行应答,生成应答结果。
3.一种基于FreeSWITCH的智能语音控制系统,其特征在于,包括:语音获取模块、监听模块、应答模块、语音合成模块以及反馈模块;
所述语音获取模块,用于通过FreeSWITCH获取第一用户输入的音频数据,并将所述音频数据发送至ASR模块,以使所述ASR模块对所述音频数据进行语音识别;
所述监听模块,用于监听所述ASR模块对所述音频数据的语音识别,得到语音识别结果;
所述应答模块,用于将所述语音识别结果发送至业务系统,以使所述业务系统对所述语音识别结果进行应答同时生成应答结果;
所述语音合成模块,用于将所述应答结果发送至TTS模块,以使所述TTS模块根据所述应答结果合成对应的应答音频数据,并将所述应答音频数据发送至所述FreeSWITCH;
所述反馈模块,用于当所述FreeSWITCH在接收到所述应答音频数据后,将所述应答音频数据返回至所述第一用户;
所述语音获取模块包括语音获取单元和语音识别单元;
所述语音获取单元,用于通过FreeSWITCH的media bug功能获取第一用户输入的音频数据,并通过ASR模块的SDK与ASR引擎建立socket连接;
所述语音识别单元,用于将所述音频数据通过socket发送至所述ASR引擎,以供所述ASR引擎对所述音频数据进行识别并转化为文本;
其中,所述ASR引擎对所述音频数据进行识别,具体为:
对所述音频数据进行语音端点检测,在检测到第一用户的声音后,通过声学模型将所述音频数据转化为音节,在预设时间内未检测到所述第一用户的声音后,通过语言模型将所述音节转化为文本;
所述监听模块包括回调监听单元;
所述回调监听单元,用于调用SDK的回调函数监听所述ASR引擎对所述音频数据的识别结果,得到所述文本并将所述文本作为语音识别结果。
4.如权利要求3所述的基于FreeSWITCH的智能语音控制系统,其特征在于,所述业务系统内设有应答引擎、话术图谱以及所有用户的话术配置;
当所述业务系统接收到所述语音识别结果时,提取所述语音识别结果中的第一用户信息,在所述所有用户的话术配置中进行匹配,得到所述第一用户的第一话术配置;
通过所述应答引擎根据所述话术图谱和所述第一话术配置,对所述语音识别结果进行应答,生成应答结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910723198.9A CN110534084B (zh) | 2019-08-06 | 2019-08-06 | 一种基于FreeSWITCH的智能语音控制方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910723198.9A CN110534084B (zh) | 2019-08-06 | 2019-08-06 | 一种基于FreeSWITCH的智能语音控制方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110534084A CN110534084A (zh) | 2019-12-03 |
CN110534084B true CN110534084B (zh) | 2022-05-13 |
Family
ID=68661485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910723198.9A Active CN110534084B (zh) | 2019-08-06 | 2019-08-06 | 一种基于FreeSWITCH的智能语音控制方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110534084B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113079259A (zh) * | 2021-03-31 | 2021-07-06 | 北京智齿博创科技有限公司 | 基于freeswitch与ASR技术的外呼失败结果检测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018068096A1 (en) * | 2016-10-13 | 2018-04-19 | Optus Administration Pty Ltd | Method and system for offering digital services within a phone call |
CN109036375A (zh) * | 2018-07-25 | 2018-12-18 | 腾讯科技(深圳)有限公司 | 语音合成方法、模型训练方法、装置和计算机设备 |
CN109995953A (zh) * | 2019-03-20 | 2019-07-09 | 深圳风豹互联网科技有限公司 | 一种智能电销的系统和方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012040418A1 (en) * | 2010-09-22 | 2012-03-29 | Vivox, Inc. | Techniques for extending and associating chats with execution instances of programs |
CN103873706B (zh) * | 2012-12-18 | 2016-12-28 | 北京裕丰大通科技有限公司 | 动态智能语音识别ivr服务系统 |
CN105162836B (zh) * | 2015-07-29 | 2017-10-31 | 百度在线网络技术(北京)有限公司 | 执行语音通信的方法及服务器 |
CN109479110A (zh) * | 2016-03-08 | 2019-03-15 | 优确诺股份有限公司 | 动态创建个人化锻炼视频的系统和方法 |
US20180144744A1 (en) * | 2016-11-22 | 2018-05-24 | Salesforce.Com, Inc. | Controlling a user interface console using speech recognition |
CN108810295A (zh) * | 2018-03-28 | 2018-11-13 | 平安科技(深圳)有限公司 | 服务提供方法、电子设备及存储介质 |
CN109862197A (zh) * | 2019-01-29 | 2019-06-07 | 佛山市贝密信息科技有限公司 | 一种新型呼叫中心及其外呼方法 |
-
2019
- 2019-08-06 CN CN201910723198.9A patent/CN110534084B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018068096A1 (en) * | 2016-10-13 | 2018-04-19 | Optus Administration Pty Ltd | Method and system for offering digital services within a phone call |
CN109036375A (zh) * | 2018-07-25 | 2018-12-18 | 腾讯科技(深圳)有限公司 | 语音合成方法、模型训练方法、装置和计算机设备 |
CN109995953A (zh) * | 2019-03-20 | 2019-07-09 | 深圳风豹互联网科技有限公司 | 一种智能电销的系统和方法 |
Non-Patent Citations (1)
Title |
---|
基于FreeSWITCH的呼叫中心设计与实现;张宏祥;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150915;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110534084A (zh) | 2019-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110049270B (zh) | 多人会议语音转写方法、装置、系统、设备及存储介质 | |
US9672812B1 (en) | Qualifying trigger expressions in speech-based systems | |
KR102108500B1 (ko) | 번역 기반 통신 서비스 지원 방법 및 시스템과, 이를 지원하는 단말기 | |
CN110047481B (zh) | 用于语音识别的方法和装置 | |
CN102903361A (zh) | 一种通话即时翻译系统和方法 | |
CN111429899A (zh) | 基于人工智能的语音响应处理方法、装置、设备及介质 | |
CN110992955A (zh) | 一种智能设备的语音操作方法、装置、设备及存储介质 | |
JP2011504624A (ja) | 自動同時通訳システム | |
JP5387416B2 (ja) | 発話分割システム、発話分割方法および発話分割プログラム | |
US20170221481A1 (en) | Data structure, interactive voice response device, and electronic device | |
CN111210821A (zh) | 一种基于互联网应用的智能语音识别系统 | |
CN111833878A (zh) | 基于树莓派边缘计算的中文语音交互无感控制系统和方法 | |
KR20220130739A (ko) | 스피치 인식 | |
CN1932976B (zh) | 一种实现视音频处理中字幕与语音同步的方法和系统 | |
CN111629110A (zh) | 一种语音交互方法和语音交互系统 | |
CN110534084B (zh) | 一种基于FreeSWITCH的智能语音控制方法及系统 | |
CN107886940B (zh) | 语音翻译处理方法及装置 | |
CN113611316A (zh) | 人机交互方法、装置、设备以及存储介质 | |
CN101253547B (zh) | 语音对话方法和系统 | |
CN102196100A (zh) | 通话即时翻译系统及方法 | |
JP7287006B2 (ja) | 話者決定装置、話者決定方法、および話者決定装置の制御プログラム | |
CN116013257A (zh) | 语音识别、语音识别模型训练方法、装置、介质及设备 | |
CN114999496A (zh) | 音频传输方法、控制设备及终端设备 | |
KR102181583B1 (ko) | 음성인식 교감형 로봇, 교감형 로봇 음성인식 시스템 및 그 방법 | |
KR101233655B1 (ko) | 음성인식 기반 국제회의 통역 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |